8 pièce(s) jointe(s)
Le nouveau générateur d'images d'OpenAI parvient à reproduire des styles comme celui de Pixar
OpenAI a déployé une mise à jour majeure de l'outil de génération d'images intégré à ChatGPT, et fait passer l'outil de DALL-E à GPT-4o afin d'améliorer les compétences en conception graphique de ChatGPT
OpenAI a déployé ce qu'elle décrit comme une mise à jour majeure de l'outil de génération d'images intégré à ChatGPT. Les utilisateurs peuvent ainsi désormais utiliser GPT-4o pour générer des images au sein même de ChatGPT.
Jusqu'à présent, la fonctionnalité était alimentée par un algorithme appelé DALL-E-3, la troisième itération d'un modèle texte-image qui a fait ses débuts en 2023. La version originale du modèle était une édition modifiée de GPT-3 adaptée aux tâches de rendu.
Dans le cadre de la mise à jour, OpenAI a remplacé l'outil de génération d'images intégré à ChatGPT en le faisant passer de DALL-E à GPT-4o. Ce dernier algorithme est un grand modèle de langage multimodal qui a été lancé en avril dernier. OpenAI affirme que cette mise à jour améliorera considérablement les compétences de ChatGPT en matière de conception graphique.
Le générateur d'images du chatbot peut désormais prendre en charge des tâches plus complexes qu'auparavant. Lors d'un test interne, OpenAI a demandé à ChatGPT de visualiser une expérience de physique réalisée par Isaac Newton. En réponse, le chatbot a généré une illustration détaillée accompagnée d'un texte explicatif.
ChatGPT peut personnaliser les images qu'il génère en fonction des instructions de l'utilisateur. Après avoir créé l'illustration de l'expérience de Newton, les ingénieurs d'OpenAI ont demandé au chatbot de superposer le dessin sur un cahier. Le chatbot a accompli avec succès cette tâche, qui impliquait à la fois de modifier l'angle de l'illustration et d'ajouter un arrière-plan complexe.
Selon OpenAI, les générateurs d'images IA concurrents éprouvent des difficultés avec les invites qui leur demandent de dessiner plus d'une poignée d'objets. L'entreprise affirme que GPT-4o peut dessiner avec précision jusqu'à 20 objets différents spécifiés par l'utilisateur. Cela inclut le texte, que le modèle génère de manière plus fiable que DALL-E-3.
Les utilisateurs peuvent éventuellement fournir à ChatGPT des images de référence. Un concepteur d'interface, par exemple, peut télécharger un modèle de menu déroulant et demander au chatbot d'y apporter des améliorations.
Un autre avantage du générateur d'images amélioré de ChatGPT est qu'il peut créer des objets avec des arrière-plans transparents. Un arrière-plan transparent permet de combiner plus facilement des éléments visuels entre eux. Cela simplifie les tâches telles que l'intégration d'un logo nouvellement créé dans l'interface d'une application existante.
OpenAI a entraîné GPT-4o en utilisant des données accessibles au public et des actifs sous licence de partenaires tels que Shutterstock Inc. « Nous avons entraîné nos modèles sur la distribution conjointe d'images et de textes en ligne, en apprenant non seulement comment les images sont liées au langage, mais aussi comment elles sont liées les unes aux autres », ont écrit les membres de l'équipe d'OpenAI dans un billet de blog.
Après la phase de formation initiale, l'entreprise a utilisé une méthode appelée RLHF pour affiner la qualité des résultats de ChatGPT. Il s'agit d'une variante de l'apprentissage par renforcement, une approche standard de l'industrie pour développer des modèles d'IA.
Dans les projets d'apprentissage par renforcement, le processus de formation d'un modèle IA est coordonné par un second réseau de neurones. RLHF, l'apprentissage automatique utilisé par OpenAI pour construire GPT-4o, améliore ce deuxième réseau de neurones en s'appuyant sur les commentaires d'experts humains. Les améliorations apportées par les experts permettent d'accroître la qualité de l'IA en cours de formation.
Génération d'images utiles
Des premières peintures rupestres aux infographies modernes, l'homme a utilisé l'imagerie visuelle pour communiquer, persuader et analyser, et pas seulement pour décorer. Les modèles génératifs d'aujourd'hui peuvent évoquer des scènes surréalistes et époustouflantes, mais se heurtent à l'imagerie de base que les gens utilisent pour partager et créer des informations. Des logos aux diagrammes, les images peuvent véhiculer une signification précise lorsqu'elles sont complétées par des symboles qui renvoient à un langage et à une expérience partagés.
La génération d'images avec GPT-4o excelle dans le rendu précis du texte, le suivi précis des invites et l'exploitation de la base de connaissances inhérente à 4o et du contexte du chat, y compris la transformation des images téléchargées ou leur utilisation comme source d'inspiration visuelle. Selon OpenAI, « ces capacités facilitent la création de l'image que vous imaginez, vous aidant à communiquer plus efficacement par le biais de visuels et faisant de la génération d'images un outil pratique, précis et puissant. »
Des capacités améliorées
OpenAI a entraîné ses modèles sur la distribution conjointe d'images et de textes en ligne, en apprenant comment les images sont liées au langage, mais aussi comment elles sont liées les unes aux autres. Le modèle résultant est combiné à un post-entraînement agressif et possède une fluidité visuelle surprenante, capable de générer des images utiles, cohérentes et tenant compte du contexte.
Rendu de texte
Selon l'entreprise, même si une image vaut mille mots, parfois la génération de quelques mots au bon endroit peut rehausser le sens d'une image. La capacité de 4o à mélanger des symboles précis avec des images transforme ainsi la génération d'images en un outil de communication visuelle.
Génération multi-tours
La génération d'images est désormais native dans GPT-4o, les utilisateurs peuvent affiner les images par le biais d'une conversation naturelle. GPT-4o peut s'appuyer sur des images et du texte dans le contexte d'un chat, assurant ainsi la cohérence de l'ensemble. Par exemple, si vous concevez un personnage de jeu vidéo, l'apparence du personnage reste cohérente à travers de multiples itérations au fur et à mesure que vous l'affinez et l'expérimentez.
Suivi des instructions
La génération d'images de GPT-4o suit des instructions détaillées avec une attention particulière. Alors que d'autres systèmes ont des difficultés avec environ 5 à 8 objets, GPT-4o peut gérer jusqu'à 10-20 objets différents. Le lien plus étroit entre les objets et leurs traits et relations permet un meilleur contrôle.
Apprentissage en contexte
GPT-4o peut analyser et apprendre à partir d'images téléchargées par l'utilisateur, en intégrant de manière transparente leurs détails dans son contexte afin d'informer la génération d'images.
Connaissance du monde
La génération d'images natives permet à 4o de relier ses connaissances entre le texte et les images, ce qui se traduit par un modèle plus intelligent et plus efficace.
Photoréalisme et style
La formation sur des images reflétant une grande variété de styles d'images permet au modèle de créer ou de transformer des images de manière convaincante.
Limites
Le modèle d'OpenAI n'est pas parfait. L'entreprise est consciente des nombreuses limites actuelles et précise qu'elle s'efforcera de les résoudre en améliorant le modèle après le lancement initial.
Sécurité
Conformément à sa spécification de modèle, OpenAI a indiqué que son objectif vise à maximiser la liberté de création en soutenant des cas d'utilisation précieux tels que le développement de jeux, l'exploration historique et l'éducation, tout en maintenant des normes de sécurité strictes. Dans le même temps, l'entreprise précise qu'il est toujours aussi important de bloquer les demandes qui violent ces normes.
Vous trouverez ci-dessous des évaluations de domaines de risque supplémentaires pour lesquels OpenAI travaille afin de permettre un contenu sûr et très utile et de soutenir une expression créative plus large pour les utilisateurs.
Provenance via C2PA et recherche interne réversible
Toutes les images générées sont accompagnées de métadonnées C2PA, qui identifient une image comme provenant de GPT-4o, afin d'assurer la transparence. OpenAI a également mis au point un outil de recherche interne qui utilise les attributs techniques des générations pour aider à vérifier si le contenu provient de son modèle.
Blocage des mauvais contenus
OpenAI continue de bloquer les demandes d'images générées susceptibles de violer ses politiques de contenu, telles que les images d'abus sexuel d'enfants et les deepfakes sexuels. Lorsqu'il s'agit d'images de personnes réelles, l'entreprise a renforcé les restrictions concernant le type d'images qui peuvent être créées, avec des garanties particulièrement solides concernant la nudité et la violence graphique.
« Comme pour tout lancement, la sécurité n'est jamais achevée et constitue plutôt un domaine d'investissement permanent. Au fur et à mesure que nous en apprendrons davantage sur l'utilisation de ce modèle dans le monde réel, nous adapterons nos politiques en conséquence », a déclaré l'entreprise dans un billet de blog.
Utiliser le raisonnement pour renforcer la sécurité
À l'instar de son travail d'alignement délibératif, OpenAI a formé un LLM de raisonnement pour travailler directement à partir de spécifications de sécurité écrites et interprétables par l'homme. L'entreprise a utilisé ce LLM de raisonnement pendant le développement pour l'aider à identifier et à résoudre les ambiguïtés de ses politiques. Avec les avancées multimodales et les techniques de sécurité existantes développées pour ChatGPT et Sora, cela permet de modérer à la fois le texte d'entrée et les images de sortie par rapport à nos politiques.
Accès et disponibilité
La génération d'images 4o est disponible à partir du 25 mars 2025 pour les utilisateurs Plus, Pro, Team et Free en tant que générateur d'images par défaut dans ChatGPT, et sera bientôt accessible aux utilisateurs Enterprise et Edu. Elle est également disponible dans Sora. Pour ceux qui ont une place spéciale dans leur cœur pour DALL-E, il est toujours possible d'y accéder par le biais d'un GPT dédié à DALL-E.
Selon OpenAI, les développeurs pourront bientôt générer des images avec GPT-4o via l'API, dont l'accès sera déployé dans les prochaines semaines.
L'entreprise conclut: « La création et la personnalisation d'images est aussi simple que le chat avec GPT-4o - il suffit de décrire ce dont vous avez besoin, y compris les spécificités telles que le rapport d'aspect, les couleurs exactes à l'aide de codes hexadécimaux ou un arrière-plan transparent. Étant donné que ce modèle crée des images plus détaillées, le rendu des images prend plus de temps, souvent jusqu'à une minute. »
Et vous ?
:fleche: Quel est votre avis sur le sujet ?
:fleche: Trouvez-vous cette initiative d'OpenAI crédible ou pertinente ?
Voir aussi :
:fleche: OpenAI permet désormais aux utilisateurs gratuits de ChatGPT d'accéder à DALL-E 3, un modèle d'IA texte-image avancé, les utilisateurs peuvent générer jusqu'à deux images par jour via DALL-E 3
:fleche: Un nouvel aperçu de recherche de GPT-4.5 d'OpenAI montre que le modèle d'IA améliore sa capacité à reconnaître des motifs, à établir des connexions et à générer des idées créatives sans raisonnement
L'IA virale de génération d'images intégrée à ChatGPT fait « fondre » les GPU d'OpenAI, selon Sam Altman
L'IA virale de génération d'images intégrée à ChatGPT fait « fondre » les GPU d'OpenAI, elle surcharge les serveurs de l'entreprise et sera donc temporairement limitée, selon Sam Altman, PDG d'OpenAI
Le PDG d'OpenAI, Sam Altman, a annoncé que l'utilisation virale de la nouvelle intelligence artificielle (IA) de génération d'images de ChatGPT surcharge les serveurs de l'entreprise.
L'engouement pour la nouvelle fonctionnalité d'IA fait suite à la récente mise à niveau de l'outil par OpenAI. Le 25 mars dernier, OpenAI a en effet déployé une mise à jour majeure de l'outil de génération d'images intégré à ChatGPT et a fait évoluer le modèle de DALL-E à GPT-4o. Selon OpenAI, cette mise à jour vise à améliorer considérablement les capacités de ChatGPT en matière de conception graphique, mais le succès de l'outil auprès du public semble avoir mis à rude épreuve l'infrastructure de l'entreprise.
Dans un message publié sur le site de médias sociaux X, Sam Altman, PDG d'OpenAI, a indiqué :
Citation:
Envoyé par Sam Altman
C'est très amusant de voir que les gens aiment les images dans ChatGPT.
Mais nos GPU sont en train de fondre.
Nous allons temporairement introduire quelques limites de taux pendant que nous travaillons à le rendre plus efficace. J'espère que ce ne sera pas long !
Les utilisateurs de la version gratuite de ChatGPT pourront bientôt bénéficier de 3 générations par jour.
Les limites de taux affectent le lancement par OpenAI de la génération native d'images au sein de ChatGPT. L'entreprise a présenté l'outil de génération d'images de « haute qualité » comme un moyen de produire tout ce qui va des diagrammes, infographies et logos aux cartes de visite et aux photos d'archives. Cette fonctionnalité permet également d'utiliser une image comme point de départ d'une œuvre d'art, telle qu'une peinture personnalisée d'un animal de compagnie ou l'édition d'une photo professionnelle.
La fonctionnalité de génération d'images a commencé à être déployée pour les utilisateurs de ChatGPT PLUS, Pro et Team le mardi 25 mars, ainsi que pour les utilisateurs du niveau gratuit du chatbot lorsqu'ils utilisent le modèle 4o d'OpenAI. Les utilisateurs de ChatGPT Enterprise et Edu y auront accès à partir de la semaine de début avril, a indiqué l'entreprise.
Les images de rendus animés des photos téléchargées par les utilisateurs sont devenues virales sur X et d'autres applications de médias sociaux depuis le lancement de la fonctionnalité. Sam Altman, par exemple, a remplacé sa photo de profil sur X par une image générée par la nouvelle fonctionnalité.
L'un des premiers produits à succès de l'entreprise a été le modèle Dall-E, lancé en 2021. Il s'agissait de l'un des premiers générateurs d'images par IA, qui a été intégré à ChatGPT en 2023.
Les utilisateurs de la version gratuite de ChatGPT pourront bientôt générer trois images par jour, a écrit Sam Altman.
La déclaration de Sam Altman sur X intervient dans un contexte de débats en cours sur les risques à long terme de l'IA, un sujet que le cofondateur d'OpenAI a souvent abordé. Dans une récente interview, Sam Altman a réitéré ses inquiétudes quant aux menaces existentielles de l'IA et a exprimé l'espoir que les chercheurs trouvent un moyen d'empêcher l'IA de détruire l'humanité. Tout en reconnaissant les dangers potentiels, le PDG d'OpenAI a laissé entendre que les progrès de l'IA, y compris éventuellement l'AGI, pourraient apparaître plus tôt que prévu. Il a également nuancé les craintes immédiates en matière de sécurité, affirmant que l'IA elle-même pourrait contribuer à atténuer les risques qu'elle crée.
Et vous ?
:fleche: Quel est votre avis sur le sujet ?
:fleche: Trouvez-vous cette initiative d'OpenAI crédible ou pertinente ?
Voir aussi :
:fleche: OpenAI a déployé une mise à jour majeure de l'outil de génération d'images intégré à ChatGPT, et a fait passer l'outil de DALL-E à GPT-4o afin d'améliorer les compétences en conception graphique de ChatGPT
:fleche: DALL-E 3 est maintenant disponible dans ChatGPT Plus et Enterprise, permettant aux abonnés payants de ChatGPT d'utiliser le générateur d'images
:fleche: OpenAI lance un outil capable de détecter les images créées par son générateur texte-image DALL-E 3, afin de répondre aux inquiétudes concernant l'influence des contenus générés par l'IA lors des élections
1 pièce(s) jointe(s)
Le nouveau générateur d'images d'OpenAI parvient à reproduire des styles comme celui de Pixar
Le nouveau générateur d'images d'OpenAI parvient à reproduire des styles comme celui de Pixar ou du Studio Ghibli,
relançant le débat sur la protection des droits d'auteur à l'ère de l'IA
Cela ne fait même pas une semaine que le nouveau générateur d'images IA de ChatGPT est en ligne, et les réseaux sociaux sont déjà inondés de mèmes générés par l'IA dans le style du Studio Ghibli, le studio d'animation japonais culte à l'origine de films à succès tels que « Mon voisin Totoro » et « Le Voyage de Chihiro ». La situation a mis en lumière les préoccupations croissantes concernant la protection des droits d'auteur à l'ère de l'intelligence artificielle, donnant lieu à un débat intense sur les questions de propriété intellectuelle et de respect des créations artistiques. Cet événement a ouvert une réflexion plus large sur la manière dont les technologies avancées d'IA, notamment les générateurs d'images, redéfinissent les frontières du copyright et des pratiques artistiques.
Après la sortie du générateur d'OpenAI, nous avons vu des images générées par l'IA représentant des versions Studio Ghibli d'Elon Musk, du « Seigneur des anneaux » et du président Donald Trump. Le PDG d'OpenAI, Sam Altman, semble même avoir fait de sa nouvelle photo de profil une image de style Studio Ghibli, probablement réalisée avec le générateur d'images natif de GPT-4o. Les utilisateurs semblent télécharger des images et des photos existantes dans ChatGPT et demander au chatbot de les recréer dans de nouveaux styles.
La dernière mise à jour d'OpenAI fait suite à la publication par Google d'une fonction d'IA similaire pour les images dans son modèle Gemini Flash, qui a également suscité un moment viral au début du mois de mars lorsque des personnes l'ont utilisée pour supprimer les filigranes d'images.
Les derniers outils d'OpenAI et de Google permettent plus que jamais de recréer le style d'œuvres protégées par des droits d'auteur, simplement en tapant un texte. Mais la véritable préoccupation réside dans la manière dont ces outils d'IA sont formés pour imiter les styles. Ces entreprises s'entraînent-elles sur des œuvres protégées par le droit d'auteur et, dans l'affirmative, cela enfreint-il la législation sur le droit d'auteur ?
Telle est la question au cœur de plusieurs procès en cours contre des développeurs de modèles d'IA générative.
Selon Evan Brown, avocat spécialiste de la propriété intellectuelle au cabinet Neal & McDevitt, des produits tels que le générateur d'images natives de GPT-4o opèrent aujourd'hui dans une zone de flou juridique. Le style n'est pas explicitement protégé par le droit d'auteur, selon Brown, ce qui signifie qu'OpenAI ne semble pas enfreindre la loi simplement en générant des images qui ressemblent aux films du Studio Ghibli.
Toutefois, Brown estime qu'il est plausible qu'OpenAI ait obtenu cette ressemblance en entraînant son modèle sur des millions d'images tirées des films de Ghibli. Même si c'était le cas, plusieurs tribunaux sont encore en train de décider si l'entraînement de modèles d'IA sur des œuvres protégées par le droit d'auteur relève de la protection de l'usage loyal.
« Je pense que cela soulève la même question que celle que nous nous posons depuis quelques années », a déclaré Brown lors d'une interview. « Quelles sont les conséquences en termes de violation des droits d'auteur du fait de parcourir le web et de copier dans ces bases de données ? »
Le New York Times et plusieurs éditeurs ont engagé des poursuites contre OpenAI, affirmant que la société a entraîné ses modèles d'intelligence artificielle sur des œuvres protégées par le droit d'auteur sans attribution ni paiement appropriés. Des plaintes similaires ont été déposées contre d'autres grandes entreprises d'IA, notamment Meta et Midjourney, une startup spécialisée dans la génération d'images d'IA.
Un porte-parole d'OpenAI a déclaré que si ChatGPT refuse de reproduire « le style d'artistes vivants individuels », OpenAI l'autorise à reproduire « des styles de studio plus larges ». Bien entendu, il convient de noter que certains artistes vivants sont reconnus pour avoir été les pionniers du style unique de leur studio, comme le cofondateur du Studio Ghibli, Hayao Miyazaki.
De toute évidence, les utilisateurs ont également été en mesure d'utiliser la fonction native de génération d'images de GPT-4o pour recréer les styles d'autres studios et artistes. Quelqu'un d'autre a réalisé un portrait de Marc Andreessen dans le style du Dr. Seuss
et un couple marié a recréé ses photos de mariage dans le style de Pixar.
Les enjeux du droit d'auteur dans le contexte de l'IA
Le droit d'auteur protège les œuvres originales, y compris les créations artistiques, littéraires et cinématographiques. Cependant, avec l'avènement de l'intelligence artificielle capable de générer de nouvelles œuvres en se basant sur des modèles d'apprentissage à partir de milliers d'exemples, la question de savoir qui possède les droits sur ces créations devient de plus en plus floue.
Dans le cas des entreprises d'IA comme OpenAI, un des points de friction concerne l’utilisation des données d’entraînement pour générer des œuvres visuellement similaires à celles de créateurs existants. Les algorithmes d’OpenAI, comme d'autres systèmes d'IA, apprennent des bases de données massives qui peuvent inclure des œuvres protégées par des droits d'auteur, sans que ces œuvres aient été explicitement autorisées pour cet usage. Si l'IA produit des œuvres qui ressemblent étroitement à des créations spécifiques de Studio Ghibli, il devient alors questionnable si cela constitue une violation des droits d'auteur de ces créateurs.
La frontière floue entre inspiration et imitation
Un autre aspect central de ce débat est la question de l'inspiration versus l'imitation. L'IA, en générant des images ou des œuvres influencées par des styles existants, pourrait potentiellement être perçue comme une forme « d'hommage » ou de « réinterprétation ». Cependant, lorsque ces œuvres imitent trop étroitement les créations d’un studio comme Ghibli, il peut être difficile de distinguer entre une inspiration légitime et une reproduction non autorisée. De plus, la capacité des IA à produire une grande quantité d'œuvres semblables en très peu de temps soulève des inquiétudes concernant la facilité avec laquelle des créateurs ou des entreprises peuvent exploiter des styles protégés sans devoir demander la permission.
Les appels à une régulation accrue
Cette situation n'est qu'une illustration parmi tant d'autres de la manière dont les technologies de génération d'images par IA peuvent perturber l'équilibre entre la création artistique et la protection des droits d'auteur. Alors que l'IA continue de se perfectionner, il est essentiel de réévaluer la manière dont la loi régit les œuvres créées par des machines.
Face à ces préoccupations, des voix se sont élevées pour demander une régulation accrue de l'utilisation de l'IA dans la création artistique. Les partisans de cette régulation préconisent l'établissement de lignes directrices claires pour les créateurs d'IA afin de garantir qu'aucune œuvre protégée par des droits d'auteur ne soit utilisée sans autorisation. Ces mesures incluraient probablement des exigences pour les entreprises qui développent des IA génératrices d'images de s'assurer qu'elles respectent les droits des créateurs humains.
Il est également suggéré que les législateurs et les créateurs de contenu travaillent ensemble pour définir ce qui constitue une « œuvre originale » dans le contexte de l'IA. Une telle évolution pourrait rendre plus transparent le processus par lequel les IA génèrent des œuvres, tout en offrant une meilleure protection pour les artistes dont les styles sont imités sans consentement.
Un tournant dans la protection de la propriété intellectuelle
Le moment viral lié aux productions générés par l'IA d'OpenAI et le style du Studio Ghibli (entre autres) marque un tournant dans la réflexion autour des droits d'auteur à l'ère numérique. Alors que l'IA offre de nouvelles opportunités de création, elle soulève aussi des défis importants pour le système juridique existant, qui n'a pas encore su s'adapter pleinement à cette nouvelle réalité.
Pour l'instant, les nouvelles fonctions d'image d'OpenAI et de Google représentent un bond en avant dans ce que les modèles d'IA peuvent générer, ce qui semble entraîner une augmentation de l'utilisation. Mercredi, OpenAI a retardé le déploiement de son nouvel outil d'image pour les utilisateurs de niveau gratuit, invoquant une forte demande. C'est peut-être la chose la plus importante pour ces entreprises aujourd'hui, mais nous devrons attendre que les tribunaux se prononcent sur leur légalité.
Source : X
Et vous ?
:fleche: Jusqu'où peut-on aller dans l'utilisation des styles artistiques protégés par des droits d'auteur pour entraîner des intelligences artificielles ?
:fleche: Les artistes dont les œuvres sont imitées par l'IA devraient-ils être rémunérés ou avoir un droit de regard sur les créations qui s’inspirent de leur travail ?
:fleche: Les lois actuelles sur les droits d'auteur sont-elles adaptées à l’ère de l’intelligence artificielle, ou faut-il réformer le cadre juridique pour mieux protéger les créateurs ?
:fleche: Les IA devraient-elles être contraintes de divulguer les sources de données utilisées pour leur apprentissage afin de garantir qu’elles ne violent pas de droits d’auteur ?
:fleche: Si une IA génère une œuvre qui ressemble fortement à celle d’un créateur, devrait-on permettre à l’artiste de réclamer des droits d’auteur sur l’œuvre générée par IA, comme s’il s’agissait d’une œuvre dérivée ?