Le dernier produit d’IA de Google, “Whisk”, permet aux utilisateurs de télécharger des photographies pour obtenir une image fusionnée, générée par l’IA, sans taper un mot.
Avant que Whisk ne mélange les photographies, les utilisateurs peuvent fournir des images de sujets, de paramètres et de styles.
Dans un article de blog, Google a qualifié Whisk d’outil “créatif” pour l’inspiration rapide, plutôt que d’un “éditeur d’images traditionnel”. Whisk est censé être une fonction d’IA amusante, et non un outil professionnel.
Les grandes entreprises de la technologie comme Google et OpenAI se précipitent pour offrir des produits grand public qui mettent en avant la nouvelle technologie cool, même si les détracteurs avertissent que la croissance de l’IA sans limites est dangereuse pour l’humanité.
Depuis qu’OpenAI a introduit Dall-E, un outil de production de texte vers image, en 2021, des œuvres d’art générées par l’IA inondent les réseaux sociaux et imprègnent les produits grand public. Google Whisk est un générateur d’image à image qui s’appuie sur les générateurs de texte à image.
Les utilisateurs de Whisk peuvent modifier leurs entrées et mélanger des catégories pour créer des peluches, des épingles émaillées et des autocollants. Les utilisateurs peuvent fournir des détails à l’aide de mots, mais une image n’est pas essentielle.
“Whisk est conçu pour permettre aux utilisateurs de remixer un sujet, une scène et un style de manière nouvelle et créative, offrant une exploration visuelle rapide au lieu d’éditions pixel-perfect”, a déclaré Thomas Iljic, directeur de la gestion des produits de Google Labs.
Google a acheté DeepMind en 2014 et a utilisé son intelligence artificielle générative pour construire Whisk.
Whisk utilise le service d’IA principal de Google, Gemini, introduit en décembre 2023, et Imagen 3, le générateur de texte vers image le plus récent de DeepMind.
Imagen 3 reçoit des légendes de Gemini lorsque les utilisateurs publient des photographies. Pour mélanger l’image finale, la technique capture “l’essence” du sujet plutôt qu’une reproduction exacte, qui peut s’écarter de la demande.
Google a déclaré dans un article de blog que l’image créée peut différer des photos originales en termes de taille, de coupe de cheveux et de teint de peau.
Google a été critiqué en février lorsqu’il a lancé le convertisseur de texte en image de Gemini car il créait des images historiquement incorrectes.
Whisk, un site web de Google Labs uniquement disponible aux États-Unis, est en cours de développement précoce, a indiqué l’entreprise.
OpenAI a dévoilé Sora, un générateur de texte en vidéo, mettant en avant la compétitivité des produits grand public.
Dan Ives, directeur général et analyste principal en actions chez Wedbush Securities, a déclaré à CNN que Whisk est un autre “moment de démonstration des muscles” pour Google dans l’IA et la technologie.
Les produits d’IA font partie du “trésor” de nouveaux produits de Google pour 2025, qui comprend un nouveau système d’exploitation Android développé avec Samsung et Qualcomm. “DeepMind est un atout clé pour Google”, a déclaré Ives.