Google présente Veo, son modèle d'IA pour la génération de vidéo, et Imagen 3, son modèle texte-image

**Jade Emy** · 15/05/2024, 10h40

Google présente Veo, son modèle d'IA pour générer des vidéos haute définition, et Imagen 3, son modèle texte-image de haute qualité, ainsi que des enregistrements de démonstration créés avec Music AI Sandbox.

Google présente Veo, son modèle le plus performant pour générer des vidéos haute définition, et Imagen 3, son modèle texte-image de la plus haute qualité. Il partage également de nouveaux enregistrements de démonstration créés avec Music AI Sandbox. Selon Google, ces nouveaux modèles et outils de médias génératifs sont conçus avec et pour les créateurs.

Au cours de l'année écoulée, Google a réalisé des progrès dans l'amélioration de la qualité de ses technologies de médias génératifs. Ils ont travaillé en étroite collaboration avec la communauté créative pour étudier comment l'IA générative peut soutenir au mieux le processus créatif, et pour assurer que les outils d'IA sont aussi utiles que possible à chaque étape.

Google présente Veo, un modèle de génération vidéo récent et avancé, et Imagen 3, un modèle de conversion texte-image de la plus haute qualité. Ils présentent également quelques-unes de leurs récentes collaborations avec le cinéaste Donald Glover et son studio de création, Gilga, ainsi que les nouvelles démos des artistes Wyclef Jean, Marc Rebillet et de l'auteur-compositeur Justin Tranter, réalisées avec l'aide de Music AI Sandbox.

Nom : 1.jpg
Affichages : 5247
Taille : 61,1 Ko

Veo : un modèle de génération vidéo performant

Veo génère des vidéos de haute qualité d'une résolution de 1080p dans un large éventail de styles cinématographiques et visuels pouvant aller au-delà d'une minute. Grâce à une compréhension avancée du langage naturel et de la sémantique visuelle, il génère des vidéos qui représentent fidèlement la vision créative de l'utilisateur - en capturant avec précision le ton d'une invite et en restituant les détails dans les invites plus longues.

Le modèle offre un niveau de contrôle créatif et comprend des termes cinématographiques tels que "timelapse" ou "plans aériens d'un paysage". Veo crée des séquences homogènes et cohérentes, de sorte que les personnes, les animaux et les objets se déplacent de manière réaliste tout au long des prises de vue.

Google:

Pour découvrir comment Veo peut soutenir au mieux le processus créatif du conteur, nous invitons une série de cinéastes et de créateurs à expérimenter le modèle. Ces collaborations nous aident également à améliorer la façon dont nous concevons, construisons et déployons nos technologies afin de nous assurer que les créateurs ont leur mot à dire sur la façon dont elles sont développées.

Veo s'appuie sur des années de travail sur les modèles vidéo génératifs, notamment Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere, en combinant l'architecture, les lois de mise à l'échelle et d'autres techniques novatrices pour améliorer la qualité et la résolution de sortie.

Avec Veo, Google annonce avoir amélioré les techniques permettant au modèle d'apprendre à comprendre le contenu d'une vidéo, de rendre des images haute définition, de simuler la physique de monde réel et bien plus encore. Ces enseignements alimenteront les progrès de notre recherche sur l'IA et nous permettront de créer des produits encore plus utiles qui aideront les gens à interagir et à communiquer d'une nouvelle manière.

Veo est disponible pour certains créateurs en avant-première privée dans VideoFX en s'inscrivant sur la liste d'attente. À l'avenir, ils intégreront également certaines des fonctionnalités de Veo à YouTube Shorts et à d'autres produits. Google présente aussi un aperçu de son travail avec le cinéaste Donald Glover et son studio de création, Gilga, qui ont expérimenté Veo dans le cadre d'un projet cinématographique.

Imagen 3 : un modèle texte-image de haute qualité

Au cours de l'année écoulée, Google annonce avoir réalisé d'incroyables progrès en améliorant la qualité et la fidélité de ses modèles et outils de génération d'images. Imagen 3 est son modèle texte-image de la plus haute qualité. Selon Google, il génère un niveau de détail incroyable, produisant des images photoréalistes et réalistes, avec beaucoup moins d'artefacts visuels gênants que les modèles précédents.

Google:

Imagen 3 comprend mieux le langage naturel, l'intention derrière votre message et incorpore les petits détails des messages plus longs. La compréhension avancée du modèle l'aide à maîtriser un large éventail de styles. Il s'agit également de notre meilleur modèle à ce jour pour le rendu du texte, ce qui a constitué un défi pour les modèles de génération d'images. Cette capacité ouvre des perspectives pour la génération de messages d'anniversaire personnalisés, de diapositives de titre dans les présentations, etc.

Nom : 2.jpg
Affichages : 872
Taille : 61,1 Ko

Nom : 3.jpg
Affichages : 831
Taille : 67,8 Ko

Imagen 3 est disponible pour certains créateurs en aperçu privé dans ImageFX, et en s'inscrivant sur la liste d'attente. Imagen 3 sera bientôt disponible pour Vertex AI.

Les collaborations de Google avec la communauté musicale

Dans le cadre de son exploration continue du rôle que l'IA peut jouer dans la création artistique et musicale, Google collabore, en partenariat avec YouTube, avec des musiciens, des auteurs-compositeurs et des producteurs extraordinaires. Ces collaborations contribuent également au développement des technologies musicales génératives, notamment Lyria, un modèle avancé de génération de musique par l'IA.

Google:

Dans le cadre de ce travail, nous avons développé une suite d'outils d'IA musicale appelée Music AI Sandbox. Ces outils sont conçus pour ouvrir un nouveau terrain de jeu à la créativité, en permettant de créer de nouvelles sections instrumentales à partir de zéro, de transformer le son de manière inédite et bien plus encore. Nous travaillons en partenariat avec des musiciens, des auteurs-compositeurs et des producteurs pour étudier le rôle passionnant que peut jouer l'intelligence artificielle dans le processus de création musicale.

Aujourd'hui, nous poursuivons cette expérimentation dans le domaine de la musique avec Wyclef Jean, musicien lauréat d'un Grammy, Justin Tranter, auteur-compositeur nommé pour un Grammy, et Marc Rebillet, musicien électronique, qui publient sur leurs chaînes YouTube de nouvelles démos créées avec l'aide de nos outils d'intelligence artificielle musicale.

Responsables de la conception au déploiement

Google déclare être soucieux non seulement de faire progresser l'état de l'art, mais aussi de le faire de manière responsable. Ils prennent des mesures pour relever les défis posés par les technologies génératives et aider les personnes et les organisations à travailler de manière responsable avec le contenu généré par l'IA.

Google :

Pour chacune de ces technologies, nous avons travaillé avec la communauté créative et d'autres parties prenantes externes, en recueillant des informations et en écoutant les commentaires pour nous aider à améliorer et à déployer nos technologies de manière sûre et responsable.

Nous avons effectué des tests de sécurité, appliqué des filtres, établi des garde-fous et placé nos équipes de sécurité au centre du développement. Nos équipes sont également à l'origine d'outils tels que SynthID, qui permet d'intégrer des filigranes numériques imperceptibles dans des images, du son, du texte et des vidéos générés par l'IA. À partir d'aujourd'hui, toutes les vidéos générées par Veo sur VideoFX seront filigranées par SynthID.

Le potentiel créatif de l'IA générative est immense et nous sommes impatients de voir comment les gens du monde entier donneront vie à leurs idées grâce à nos nouveaux modèles et outils.

Source : Google

Et vous ?

Quel est votre avis sur cette annonce ?

Voir aussi :

Google veut déployer "l'IA la plus avancée, la plus sûre et la plus responsable au monde" en 2024, mais le chemin à parcourir est encore long et pourrait comporter des défis majeurs

Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0. « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul », explique le PDG Sundar Pichai

Le filigrane invisible SynthID de Google permettra désormais d'identifier les textes et les vidéos générés par l'IA, mais il est moins détectable lorsque le texte a été entièrement réécrit ou traduit