La nouvelle version de Stable Diffusion 3 inquiète en raison des images de personnes mutilées qu'elle génère

**Anthony** · 23/02/2024, 14h00

Stable Diffusion 3.0 présente une nouvelle architecture de transformateur de diffusion pour réinventer l'IA de conversion texte-image, afin d'offrir une qualité d'image et des performances améliorées

Au cours de l'année écoulée, Stability AI a régulièrement itéré et publié de nombreux modèles de génération d'images, chacun d'entre eux présentant des niveaux croissants de sophistication et de qualité. Aujourd'hui, Stability AI présente en avant-première Stable Diffusion 3.0, son modèle phare d'IA générative texte-image de nouvelle génération.

Stable Diffusion est un modèle d'apprentissage profond, de texte à image, publié en 2022 et basé sur des méthodes de diffusion. Il s'agit d'un modèle de diffusion latente, une sorte de réseau neuronal artificiel génératif profond. Son code et les poids du modèle ont été mis en libre accès, et il peut fonctionner sur la plupart des appareils grand public équipés d'un GPU avec au moins 4 Go de VRAM. Cela marque une rupture par rapport aux modèles de conversion de texte en image propriétaires précédents, tels que DALL-E et Midjourney, qui n'étaient accessibles que via des services cloud.

Stable Diffusion est principalement utilisé pour générer des images numériques photoréalistes conditionnées par des descriptions textuelles, bien qu'il puisse également être appliqué à d'autres tâches telles que l'inpainting, l'outpainting et la génération de traductions d'image à image guidées par une invite textuelle. Son développement a impliqué des chercheurs du groupe CompVis de l'université Ludwig Maximilian de Munich et de Runway, avec une donation informatique de Stability AI et des données d'entraînement provenant d'organisations à but non lucratif.

Stability AI annonce aujourd'hui 22 février en avant-première Stable Diffusion 3, son modèle de conversion texte-image le plus performant, avec des performances grandement améliorées en matière d'invites multi-sujets, de qualité d'image et de capacités orthographiques.

Bien que le modèle ne soit pas encore largement disponible, Stability AI ouvre aujourd'hui la liste d'attente pour une avant-première. Cette phase de preview, comme pour les modèles précédents, est cruciale pour recueillir des informations permettant d'améliorer les performances et la sécurité du modèle avant sa mise à disposition.

La suite de modèles Stable Diffusion 3 comprend actuellement entre 800 millions et 8 milliards de paramètres. Cette approche vise à s'aligner sur les valeurs fondamentales de Stability AI et à démocratiser l'accès, en offrant aux utilisateurs une variété d'options en termes d'évolutivité et de qualité afin de répondre au mieux à leurs besoins créatifs. Stable Diffusion 3 combine une architecture de transformateur de diffusion et une adaptation des flux. Un rapport technique détaillé sera bientôt publié.

Stability AI croit en des pratiques d'IA sûres et responsables. Cela signifie que l'entreprise a pris et continue de prendre des mesures raisonnables pour empêcher l'utilisation abusive de Stable Diffusion 3 par des acteurs malveillants. La sécurité commence dès l'entraînement du modèle et se poursuit tout au long des tests, de l'évaluation et du déploiement. En préparation de cette avant-première, de nombreuses mesures de protection ont été mises en place. En collaborant continuellement avec les chercheurs, les experts et la communauté de Stability AI, l'entreprise prévoit de continuer à innover avec intégrité à l'approche de la sortie du modèle pour le grand public.

L'engagement de Stability AI à garantir l'ouverture, la sécurité et l'accessibilité universelle de l'IA générative reste inébranlable. Avec Stable Diffusion 3, l'entreprise s'efforce d'offrir des solutions adaptables qui permettent aux individus, aux développeurs et aux organisations de libérer leur créativité, conformément à sa mission d'activer le potentiel de l'humanité.

Source : Stable Diffusion 3 (Stability AI)

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Stability AI annonce la version 2.0 de Stable Diffusion, le modèle d'IA de diffusion d'image, il améliore le modèle texte-image OpenCLIP et apporte le modèle profondeur-image

Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur

Comprendre les biais de l'intelligence artificielle, une analyse du modèle d'IA générative Stable Diffusion

**Mathis Lucas** · 14/06/2024, 16h08

La nouvelle version de Stable Diffusion 3 excelle dans l'horreur corporelle avec des images de personnes mutilées générées par l'IA
les utilisateurs se demandent si cette version est censée être une blague

Stability AI a mis à jour de son outil de génération d'images Stable Diffusion 3 afin de répondre aux préoccupations soulevées par la version précédente. Mais la mise à jour suscite des critiques encore plus acerbes en raison des monstruosités d'horreur corporelle qu'elle génère. Les rapports des utilisateurs montrent que le modèle se révèle souvent incapable de générer une image normale d'un corps humain. Au lieu de cela, il génère d'horribles amas de membres incohérents et mutilés. Le nouveau modèle de Stability AI semble être un pas en arrière par rapport à d'autres modèles de génération d'images de pointe concurrents comme Midjourney ou DALL-E 3.

Stability AI fait l'objet fait face à des réactions négatives en raison de ce que les utilisateurs considèrent comme une régression des capacités" de son modèle Stable Diffusion 3 (SD3). Selon les rapports publiés par les utilisateurs sur les sites communautaires comme Reddit, la dernière mise à jour de Stable Diffusion 3, publiée mercredi, permet de générer facilement des abominations visuelles sauvages et anatomiquement incorrectes. Stability AI a présenté cette mise à jour de l'IA comme son "modèle de génération d'images le plus sophistiqué à ce jour". Toutefois, selon les utilisateurs, la société se trompe probablement à ce sujet.

Taking a look at people testing out Stable Diffusion 3 and tbh this goes hard. pic.twitter.com/Ii7bHqmX9Y
— Max Woolf (@minimaxir) June 12, 2024

Un fil de discussion sur Reddit, intitulé "Cette version est-elle censée être une blague ? [SD3-2B]", détaille les échecs spectaculaires de SD3 Medium à générer des images des êtres humains, en particulier les membres du corps humain comme les mains et les pieds. Un autre fil de discussion, intitulé "Pourquoi SD3 est-il si mauvais pour générer des filles allongées sur l'herbe ?", expose des problèmes similaires. Selon le rapport d'un utilisateur, lors de son interaction avec l'IA, elle s'est révélée incapable de générer des images normales d'un être humain et ne renvoyait que d'horribles assemblages membres incohérents et mutilés.

« Je n'ai pas été en mesure de générer une seule image décente en dehors des exemples proposés. J'ai essayé des invites très descriptives, mais sans succès. Même une image basique comme "photographie d'une personne faisant la sieste dans un salon" conduit à des monstruosités dignes de Cronenberg », a écrit l'utilisateur. Un autre utilisateur irrité a ajouté : « ce serait drôle si ce n'était pas aussi déprimant ». Des utilisateurs du fil de discussion ont indiqué qu'ils étaient parvenus à générer des humains d'apparence normale, mais il semble que ces personnes soient une petite minorité. Ce qui suscite plusieurs inquiétudes.

Nom : molikj.png
Affichages : 5255
Taille : 677,3 Ko

Exemple d'une image générée par Stable Diffusion 3 Medium

« Il n'y a pas si longtemps, Stable Diffusion rivalisait avec Midjourney. Au moins, nos ensembles de données étaient sûrs et éthiques », a écrit un autre utilisateur. Une requête "femme allongée sur une plage" aurait abouti au résultat ci-dessous (dans le billet X), tandis que d'autres utilisateurs ont partagé des images bâclées de femmes avec un corps mutilé et des mains abîmées. Dans un autre fil de discussion, les utilisateurs ayant demandé à l'IA de générer des photos de femmes allongées dans l'herbe ont reçu à plusieurs reprises des images cauchemardesques de créatures ayant parfois la forme d'un pouce étiré.

Les échecs de Stable Diffusion 3 suggèrent que l'IA des difficultés avec les figures humanoïdes. Comme l'ont signalé les Redditors dans les différents fils de discussion, d'autres invites produisent des résultats parfaitement corrects. Les utilisateurs attribuent les échecs du modèle à l'insistance de Stability IA à filtrer le contenu pour adultes (également appelé NSFW (not safe for work)) des données d'entraînement de son modèle qui apprennent au modèle à générer des images. « Croyez-le ou non, mais le fait de censurer fortement un modèle d'IA peut avoir un impact négatif sur l'anatomie humaine », a écrit un utilisateur.

Nom : juthf.png
Affichages : 949
Taille : 698,4 Ko

Exemple d'une image générée par Stable Diffusion 3 Medium

En effet, chaque fois qu'un utilisateur demande un concept qui n'est pas bien représenté dans l'ensemble de données d'entraînement du modèle d'IA, le modèle de synthèse d'images confabule sa meilleure interprétation de ce que l'utilisateur demande. Et parfois, cela peut être complètement terrifiant. Stable Diffusion 2.0, publiée en 2022, a connu des problèmes similaires en ce qui concerne la représentation des humains, et les chercheurs en IA ont découvert que la censure des contenus pour adultes contenant de la nudité pouvait sérieusement entraver la capacité d'un modèle d'IA à générer une anatomie humaine précise.

À l'époque, Stability AI a fait marche arrière avec Stable Diffusion 2.1 et Stable Diffusion XL, récupérant certaines capacités perdues en filtrant fortement le contenu NSFW. La société a annoncé Stable Diffusion 3.0 en février, et a prévu de le rendre disponible en différentes tailles de modèles. La publication de mercredi concerne la version "Medium", qui est un modèle à 2 milliards de paramètres. En plus d'être disponibles sur Hugging Face, les poids peuvent aussi être expérimentés via la plateforme de la startup. Les poids peuvent être téléchargés et utilisés gratuitement, mais sous une licence non commerciale uniquement.

Nom : erdt.png
Affichages : 884
Taille : 968,7 Ko

Exemple d'une image générée par Stable Diffusion 3 Medium

Peu après l'annonce de février, des retards dans le lancement de Stable Diffusion 3.0 ont fait naître des rumeurs selon lesquelles le lancement était retardé en raison de problèmes techniques ou d'une mauvaise gestion. Stability AI s'est récemment retrouvée en mauvaise posture avec la démission de son fondateur et PDG, Emad Mostaque suivie d'une série de licenciements. Juste avant cela, trois ingénieurs clés (Robin Rombach, Andreas Blattmann et Dominik Lorenz) ont quitté l'entreprise. Et ses problèmes remontent encore plus loin, puisque la nouvelle de la situation financière désastreuse de l'entreprise perdure depuis 2023.

Pour certains fans de Stable Diffusion, les échecs de Stable Diffusion 3 Medium sont une manifestation visuelle de la mauvaise gestion de l'entreprise et un signe évident de l'effondrement des choses. Bien que l'entreprise n'ait pas déposé le bilan, certains utilisateurs ont fait des blagues sombres sur cette possibilité après avoir vu Stable Diffusion 3 Medium. « Je suppose qu'ils peuvent maintenant faire faillite d'une manière sûre et éthique [sic] », a écrit un utilisateur.

La formation de l'IA sur des images sans contenu pornographique présente un problème pour les entreprises d'IA comme Stability AI. Le porno occupe une grande partie d'Internet. Dans le même temps, la formation sur du matériel NSFW récupéré sur le Web pose une série de problèmes de sécurité et d'éthique très sérieux.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des monstruosités générées par Stable Diffusion 3 Medium ?

Partagez-vous l'avis selon lequel le problème est lié à la censure des images à caractère pornographique ?

Que pensez-vous des rumeurs sur la mauvaise gestion de l'entreprise et sur sa situation financière désastreuses ?

Les mauvaises performances du nouveau modèle Stable Diffusion sont-elles liées à la situation délicate que traverse l'entreprise ?

Voir aussi

Stable Diffusion 3.0 présente une nouvelle architecture de transformateur de diffusion pour réinventer l'IA de conversion texte-image, afin d'offrir une qualité d'image et des performances améliorées

Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur

Stability AI annonce la version 2.0 de Stable Diffusion, le modèle d'IA de diffusion d'image, il améliore le modèle texte-image OpenCLIP et apporte le modèle profondeur-image

La nouvelle version de Stable Diffusion 3 inquiète en raison des images de personnes mutilées qu'elle génère

Intelligence artificielle

Discussions similaires

Partager

Partager