Le nouveau générateur d'images d'OpenAI parvient à reproduire des styles comme celui de Pixar

**Anthony** · 26/03/2025, 13h46

OpenAI a déployé une mise à jour majeure de l'outil de génération d'images intégré à ChatGPT, et fait passer l'outil de DALL-E à GPT-4o afin d'améliorer les compétences en conception graphique de ChatGPT

OpenAI a déployé ce qu'elle décrit comme une mise à jour majeure de l'outil de génération d'images intégré à ChatGPT. Les utilisateurs peuvent ainsi désormais utiliser GPT-4o pour générer des images au sein même de ChatGPT.

Jusqu'à présent, la fonctionnalité était alimentée par un algorithme appelé DALL-E-3, la troisième itération d'un modèle texte-image qui a fait ses débuts en 2023. La version originale du modèle était une édition modifiée de GPT-3 adaptée aux tâches de rendu.

Dans le cadre de la mise à jour, OpenAI a remplacé l'outil de génération d'images intégré à ChatGPT en le faisant passer de DALL-E à GPT-4o. Ce dernier algorithme est un grand modèle de langage multimodal qui a été lancé en avril dernier. OpenAI affirme que cette mise à jour améliorera considérablement les compétences de ChatGPT en matière de conception graphique.

Le générateur d'images du chatbot peut désormais prendre en charge des tâches plus complexes qu'auparavant. Lors d'un test interne, OpenAI a demandé à ChatGPT de visualiser une expérience de physique réalisée par Isaac Newton. En réponse, le chatbot a généré une illustration détaillée accompagnée d'un texte explicatif.

ChatGPT peut personnaliser les images qu'il génère en fonction des instructions de l'utilisateur. Après avoir créé l'illustration de l'expérience de Newton, les ingénieurs d'OpenAI ont demandé au chatbot de superposer le dessin sur un cahier. Le chatbot a accompli avec succès cette tâche, qui impliquait à la fois de modifier l'angle de l'illustration et d'ajouter un arrière-plan complexe.

Nom : ChatGPT Image editor fig 1c.PNG
Affichages : 4551
Taille : 385,3 Ko

Selon OpenAI, les générateurs d'images IA concurrents éprouvent des difficultés avec les invites qui leur demandent de dessiner plus d'une poignée d'objets. L'entreprise affirme que GPT-4o peut dessiner avec précision jusqu'à 20 objets différents spécifiés par l'utilisateur. Cela inclut le texte, que le modèle génère de manière plus fiable que DALL-E-3.

Les utilisateurs peuvent éventuellement fournir à ChatGPT des images de référence. Un concepteur d'interface, par exemple, peut télécharger un modèle de menu déroulant et demander au chatbot d'y apporter des améliorations.

Un autre avantage du générateur d'images amélioré de ChatGPT est qu'il peut créer des objets avec des arrière-plans transparents. Un arrière-plan transparent permet de combiner plus facilement des éléments visuels entre eux. Cela simplifie les tâches telles que l'intégration d'un logo nouvellement créé dans l'interface d'une application existante.

OpenAI a entraîné GPT-4o en utilisant des données accessibles au public et des actifs sous licence de partenaires tels que Shutterstock Inc. « Nous avons entraîné nos modèles sur la distribution conjointe d'images et de textes en ligne, en apprenant non seulement comment les images sont liées au langage, mais aussi comment elles sont liées les unes aux autres », ont écrit les membres de l'équipe d'OpenAI dans un billet de blog.

Après la phase de formation initiale, l'entreprise a utilisé une méthode appelée RLHF pour affiner la qualité des résultats de ChatGPT. Il s'agit d'une variante de l'apprentissage par renforcement, une approche standard de l'industrie pour développer des modèles d'IA.

Dans les projets d'apprentissage par renforcement, le processus de formation d'un modèle IA est coordonné par un second réseau de neurones. RLHF, l'apprentissage automatique utilisé par OpenAI pour construire GPT-4o, améliore ce deuxième réseau de neurones en s'appuyant sur les commentaires d'experts humains. Les améliorations apportées par les experts permettent d'accroître la qualité de l'IA en cours de formation.

Génération d'images utiles

Des premières peintures rupestres aux infographies modernes, l'homme a utilisé l'imagerie visuelle pour communiquer, persuader et analyser, et pas seulement pour décorer. Les modèles génératifs d'aujourd'hui peuvent évoquer des scènes surréalistes et époustouflantes, mais se heurtent à l'imagerie de base que les gens utilisent pour partager et créer des informations. Des logos aux diagrammes, les images peuvent véhiculer une signification précise lorsqu'elles sont complétées par des symboles qui renvoient à un langage et à une expérience partagés.

La génération d'images avec GPT-4o excelle dans le rendu précis du texte, le suivi précis des invites et l'exploitation de la base de connaissances inhérente à 4o et du contexte du chat, y compris la transformation des images téléchargées ou leur utilisation comme source d'inspiration visuelle. Selon OpenAI, « ces capacités facilitent la création de l'image que vous imaginez, vous aidant à communiquer plus efficacement par le biais de visuels et faisant de la génération d'images un outil pratique, précis et puissant. »

Des capacités améliorées

OpenAI a entraîné ses modèles sur la distribution conjointe d'images et de textes en ligne, en apprenant comment les images sont liées au langage, mais aussi comment elles sont liées les unes aux autres. Le modèle résultant est combiné à un post-entraînement agressif et possède une fluidité visuelle surprenante, capable de générer des images utiles, cohérentes et tenant compte du contexte.

Rendu de texte

Selon l'entreprise, même si une image vaut mille mots, parfois la génération de quelques mots au bon endroit peut rehausser le sens d'une image. La capacité de 4o à mélanger des symboles précis avec des images transforme ainsi la génération d'images en un outil de communication visuelle.

Nom : ChatGPT Image editor fig 2c.PNG
Affichages : 707
Taille : 251,3 Ko

Génération multi-tours

La génération d'images est désormais native dans GPT-4o, les utilisateurs peuvent affiner les images par le biais d'une conversation naturelle. GPT-4o peut s'appuyer sur des images et du texte dans le contexte d'un chat, assurant ainsi la cohérence de l'ensemble. Par exemple, si vous concevez un personnage de jeu vidéo, l'apparence du personnage reste cohérente à travers de multiples itérations au fur et à mesure que vous l'affinez et l'expérimentez.

Nom : ChatGPT Image editor fig 3c.PNG
Affichages : 710
Taille : 181,4 Ko

Suivi des instructions

La génération d'images de GPT-4o suit des instructions détaillées avec une attention particulière. Alors que d'autres systèmes ont des difficultés avec environ 5 à 8 objets, GPT-4o peut gérer jusqu'à 10-20 objets différents. Le lien plus étroit entre les objets et leurs traits et relations permet un meilleur contrôle.

Nom : ChatGPT Image editor fig 4.PNG
Affichages : 706
Taille : 264,3 Ko

Apprentissage en contexte

GPT-4o peut analyser et apprendre à partir d'images téléchargées par l'utilisateur, en intégrant de manière transparente leurs détails dans son contexte afin d'informer la génération d'images.

Nom : ChatGPT Image editor fig 5c.PNG
Affichages : 709
Taille : 209,0 Ko

Connaissance du monde

La génération d'images natives permet à 4o de relier ses connaissances entre le texte et les images, ce qui se traduit par un modèle plus intelligent et plus efficace.

Nom : ChatGPT Image editor fig 6.PNG
Affichages : 705
Taille : 132,1 Ko

Photoréalisme et style

La formation sur des images reflétant une grande variété de styles d'images permet au modèle de créer ou de transformer des images de manière convaincante.

Nom : ChatGPT Image editor fig 7.PNG
Affichages : 701
Taille : 239,9 Ko

Limites

Le modèle d'OpenAI n'est pas parfait. L'entreprise est consciente des nombreuses limites actuelles et précise qu'elle s'efforcera de les résoudre en améliorant le modèle après le lancement initial.

Nom : ChatGPT Image editor fig 8.PNG
Affichages : 701
Taille : 165,1 Ko

Sécurité

Conformément à sa spécification de modèle, OpenAI a indiqué que son objectif vise à maximiser la liberté de création en soutenant des cas d'utilisation précieux tels que le développement de jeux, l'exploration historique et l'éducation, tout en maintenant des normes de sécurité strictes. Dans le même temps, l'entreprise précise qu'il est toujours aussi important de bloquer les demandes qui violent ces normes.

Vous trouverez ci-dessous des évaluations de domaines de risque supplémentaires pour lesquels OpenAI travaille afin de permettre un contenu sûr et très utile et de soutenir une expression créative plus large pour les utilisateurs.

Provenance via C2PA et recherche interne réversible

Toutes les images générées sont accompagnées de métadonnées C2PA, qui identifient une image comme provenant de GPT-4o, afin d'assurer la transparence. OpenAI a également mis au point un outil de recherche interne qui utilise les attributs techniques des générations pour aider à vérifier si le contenu provient de son modèle.

Blocage des mauvais contenus

OpenAI continue de bloquer les demandes d'images générées susceptibles de violer ses politiques de contenu, telles que les images d'abus sexuel d'enfants et les deepfakes sexuels. Lorsqu'il s'agit d'images de personnes réelles, l'entreprise a renforcé les restrictions concernant le type d'images qui peuvent être créées, avec des garanties particulièrement solides concernant la nudité et la violence graphique.

« Comme pour tout lancement, la sécurité n'est jamais achevée et constitue plutôt un domaine d'investissement permanent. Au fur et à mesure que nous en apprendrons davantage sur l'utilisation de ce modèle dans le monde réel, nous adapterons nos politiques en conséquence », a déclaré l'entreprise dans un billet de blog.

Utiliser le raisonnement pour renforcer la sécurité

À l'instar de son travail d'alignement délibératif, OpenAI a formé un LLM de raisonnement pour travailler directement à partir de spécifications de sécurité écrites et interprétables par l'homme. L'entreprise a utilisé ce LLM de raisonnement pendant le développement pour l'aider à identifier et à résoudre les ambiguïtés de ses politiques. Avec les avancées multimodales et les techniques de sécurité existantes développées pour ChatGPT et Sora, cela permet de modérer à la fois le texte d'entrée et les images de sortie par rapport à nos politiques.

Accès et disponibilité

La génération d'images 4o est disponible à partir du 25 mars 2025 pour les utilisateurs Plus, Pro, Team et Free en tant que générateur d'images par défaut dans ChatGPT, et sera bientôt accessible aux utilisateurs Enterprise et Edu. Elle est également disponible dans Sora. Pour ceux qui ont une place spéciale dans leur cœur pour DALL-E, il est toujours possible d'y accéder par le biais d'un GPT dédié à DALL-E.

Selon OpenAI, les développeurs pourront bientôt générer des images avec GPT-4o via l'API, dont l'accès sera déployé dans les prochaines semaines.

L'entreprise conclut: « La création et la personnalisation d'images est aussi simple que le chat avec GPT-4o - il suffit de décrire ce dont vous avez besoin, y compris les spécificités telles que le rapport d'aspect, les couleurs exactes à l'aide de codes hexadécimaux ou un arrière-plan transparent. Étant donné que ce modèle crée des images plus détaillées, le rendu des images prend plus de temps, souvent jusqu'à une minute. »

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative d'OpenAI crédible ou pertinente ?

Voir aussi :

OpenAI permet désormais aux utilisateurs gratuits de ChatGPT d'accéder à DALL-E 3, un modèle d'IA texte-image avancé, les utilisateurs peuvent générer jusqu'à deux images par jour via DALL-E 3

Un nouvel aperçu de recherche de GPT-4.5 d'OpenAI montre que le modèle d'IA améliore sa capacité à reconnaître des motifs, à établir des connexions et à générer des idées créatives sans raisonnement