Flux, une nouvelle IA générative texte-image open-source avec 12 milliards de paramètres, bat Midjourney, Stable Diffusion 3 et Auraflow, par Black Forest Labs, l'équipe de l'original Stable Diffusion.
Black Forest Labs, l'équipe qui a développé l'original Stable Diffusion, présente Flux, une nouvelle IA générative texte-image open-source avec 12 milliards de paramètres. Lors de tests comparatifs, Black Forest Labs a confirmé que Flux bat les modèles Midjourney, Stable Diffusion 3 et Auraflow.
Un modèle texte-image est un modèle d'apprentissage automatique qui prend en entrée une description en langage naturel et produit une image correspondant à cette description. En 2022, les résultats des modèles texte-image de pointe, tels que DALL-E 2 d'OpenAI, Imagen de Google Brain, Stable Diffusion de Stability AI et Midjourney, ont commencé à être considérés comme approchant la qualité des photographies réelles et de l'art dessiné par l'homme.
Les modèles texte-image combinent généralement un modèle de langage, qui transforme le texte d'entrée en une représentation latente, et un modèle d'image génératif, qui produit une image conditionnée par cette représentation. Les modèles les plus efficaces ont généralement été entraînés sur des quantités massives d'images et de données textuelles récupérées sur le web.
Black Forest Labs, l'équipe qui a contribué au développement du modèle original Stable Diffusion, a lancé Flux, un modèle texte-image open-source. Avec un nombre impressionnant de 12 milliards de paramètres, Flux peut produire des images qui rivalisent avec celles de Midjourney, et peut-être même avec n'importe quel autre modèle actuellement disponible, qu'il soit à code source ouvert ou fermé.
Flux se décline en trois variantes : Flux Dev, qui est open-source avec une licence non commerciale pour le développement communautaire ; Flux Schnell, qui est une version plus rapide, distillée et fonctionnant jusqu'à dix fois plus vite, disponible sous une licence Apache 2 ; et le modèle haut de gamme, Flux Pro, qui est une version à source fermée disponible via une API.
Lors de tests comparatifs, Black Forest Labs affirme que ses modèles Flux ont établi de nouvelles normes en matière de synthèse d'images, surpassant des modèles tels que Midjourney v6.0, Dall-E 3 (HD) et Stable Diffusion 3 Ultra en termes de qualité visuelle, de suivi, de variabilité de la taille et de l'aspect, de typographie et de diversité des résultats. Les tableaux de Black Forest Labs affirment que ses modèles Pro et Dev sont les meilleurs générateurs d'images à ce jour, et que son modèle Schnell, moins puissant, se classe entre Midjourney v5 et Ideogram.
Les utilisateurs de petits GPU n'ont cependant pas de chance. Les modèles open-source pèsent environ 23 Go, ce qui signifie qu'il faudrait probablement près de 24 Go de VRAM pour les faire fonctionner jusqu'à ce qu'une version quantifiée soit publiée, si tant est qu'elle le soit un jour. Malgré tout, il semble que les utilisateurs de GPUS dotés de 6 et 8 Go de VRAM devront bientôt dire adieu au plaisir de tester de nouveaux modèles d'IA.
Cependant, Black Forest s'est associé à Fal AI, les développeurs du modèle open-source Auraflow, pour prendre en charge les générations sur le cloud. Les modèles peuvent également être testés gratuitement sur Replicate.com. Une fois que les utilisateurs ont atteint leur quota quotidien, il en coûte 1 $ pour générer 33 images avec Flux Pro ou 333 avec Flux Schell.
Il s'agit d'un meilleur rapport qualité-prix que Midjourney ou Ideogram. Le plan de base de Midjourney coûte 96 $ par an et permet aux utilisateurs de générer environ 200 images par mois, soit environ 25 images par dollar. Le plan de base d'Ideogram coûte 84 dollars par an et permet de générer jusqu'à 400 images par mois, soit 50 images par dollar.
Voici l'annonce de Black Forest Labs :
Aujourd'hui, nous sommes heureux d'annoncer le lancement de Black Forest Labs. Profondément ancrée dans la communauté de recherche en IA générative, notre mission est de développer et de faire progresser les modèles d'apprentissage génératif profond de pointe pour les médias tels que les images et les vidéos, et de repousser les limites de la créativité, de l'efficacité et de la diversité. Nous pensons que l'IA générative sera un élément fondamental de toutes les technologies futures. En mettant nos modèles à la disposition d'un large public, nous voulons en faire profiter tout le monde, éduquer le public et renforcer la confiance dans la sécurité de ces modèles. Nous sommes déterminés à construire la norme industrielle pour les médias génératifs. Aujourd'hui, comme première étape vers cet objectif, nous publions la suite de modèles FLUX.1 qui repousse les frontières de la synthèse texte-image.
L'équipe Black Forest
Nous sommes une équipe d'éminents chercheurs et ingénieurs en intelligence artificielle ayant une expérience exceptionnelle dans le développement de modèles d'intelligence artificielle générative dans des environnements académiques, industriels et open-source. Nos innovations incluent la création de VQGAN et Latent Diffusion, les modèles Stable Diffusion pour la génération d'images et de vidéos (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers), et Adversarial Diffusion Distillation pour la synthèse d'images ultra-rapide et en temps réel.
Nous sommes convaincus que des modèles largement accessibles favorisent non seulement l'innovation et la collaboration au sein de la communauté des chercheurs et des universités, mais qu'ils augmentent également la transparence, ce qui est essentiel pour la confiance et l'adoption à grande échelle. Notre équipe s'efforce de développer des technologies de la plus haute qualité et de les rendre accessibles au plus grand nombre.
Financement
Nous sommes heureux d'annoncer la clôture réussie de notre série de financement d'amorçage de 31 millions de dollars. Ce tour de table a été mené par notre principal investisseur, Andreessen Horowitz, avec la participation notable des investisseurs providentiels Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila et Vladlen Koltun, ainsi que d'autres experts renommés dans la recherche sur l'IA et la création d'entreprises. Nous avons reçu des investissements de suivi de General Catalyst et de MätchVC pour nous soutenir dans notre mission qui consiste à mettre l'IA de pointe européenne à la portée de tous dans le monde entier.
En outre, nous avons le plaisir d'annoncer la composition de notre comité consultatif, qui comprend Michael Ovitz, fort de sa vaste expérience dans le secteur de la création de contenu, et le professeur Matthias Bethge, pionnier du transfert de style neuronal et expert de premier plan dans la recherche européenne ouverte en matière d'intelligence artificielle.
Voici les détails des modèles annoncés par Black Forest Labs :
Présentation de la famille de modèles FLUX.1
D'après Black Forest Labs, la famille de modèles texte-image FLUX.1 définit un nouvel état de l'art en matière de détails d'image, d'adhésion rapide, de diversité de style et de complexité de scène pour la synthèse texte-image. Afin de trouver un équilibre entre l'accessibilité et les capacités des modèles, FLUX.1 se décline en trois variantes : FLUX.1 [pro], FLUX.1 [dev] et FLUX.1 [schnell]
- FLUX.1 [pro] : Le meilleur de FLUX.1, offrant une génération d'images à la pointe de la performance avec un suivi rapide, une qualité visuelle, des détails d'image et une diversité de sortie de premier ordre.
- FLUX.1 [dev] : FLUX.1 [dev] est un modèle à poids ouvert, distillé avec des conseils pour des applications non commerciales. Directement dérivé de FLUX.1 [pro], FLUX.1 [dev] permet d'obtenir une qualité similaire et des capacités d'adhésion rapide, tout en étant plus efficace qu'un modèle standard de même taille.
- FLUX.1 [schnell] : notre modèle le plus rapide est conçu pour le développement local et l'utilisation personnelle. FLUX.1 [schnell] est disponible sous une licence Apache2.0.
Modèles d'écoulement alimentés par transformateur à l'échelle
Tous les modèles publics FLUX.1 sont basés sur une architecture hybride de blocs de transformateurs de diffusion multimodaux et parallèles et mis à l'échelle de 12B paramètres. Black Forest Labs améliore les modèles de diffusion précédents en s'appuyant sur l'appariement des flux, une méthode générale et conceptuellement simple pour l'apprentissage de modèles génératifs, dont la diffusion est un cas particulier. En outre, ils ont augmenté les performances du modèle et amélioré l'efficacité du matériel en incorporant des encastrements positionnels rotatifs et des couches d'attention parallèles.
Un nouveau critère de référence pour la synthèse d'images
D'après les rapports de Black Forest Labs, FLUX.1 définit le nouvel état de l'art en matière de synthèse d'images. Les modèles établissent de nouvelles normes dans leur catégorie respective. FLUX.1 [pro] et [dev] surpassent des modèles populaires comme Midjourney v6.0, DALL-E 3 (HD) et SD3-Ultra dans chacun des aspects suivants : Qualité visuelle, suivi des messages, variabilité de la taille et de l'aspect, typographie et diversité des résultats.
FLUX.1 [schnell] serait le modèle à quelques étapes le plus avancé à ce jour, surpassant non seulement ses concurrents dans sa catégorie, mais aussi des modèles non distillés puissants tels que Midjourney v6.0 et DALL-E 3 (HD). Black Forest Labs ajoute que ses modèles sont spécifiquement réglés pour préserver toute la diversité de la sortie du pré-entraînement. Par rapport à l'état de l'art actuel, ils offrent des possibilités radicalement améliorées.
A suivre : état de l'art avec un modèle texte-vidéo pour tous
Black Forest Labs déclare qu'avec leurs fortes capacités créatives, les modèles FLUX.1 servent de base puissante à une future famille de systèmes génératifs texte-vidéo compétitifs. Ces futurs modèles vidéo permettraient une création et un montage précis en haute définition et à une vitesse sans précédent.
Disponibilité
- FLUX.1 [pro] : Inscrivez-vous via l'API de Black Forest Labs. FLUX.1 [pro] est également disponible via Replicate et fal.ai.
- FLUX.1 [dev] : Les poids FLUX.1 [dev] sont disponibles sur HuggingFace et peuvent être directement testés sur Replicate ou Fal.ai.
- FLUX.1 [schnell] : Des poids similaires, FLUX.1 [dev], sont disponibles sur Hugging Face et le code d'inférence peut être trouvé sur GitHub.
Source : Black Forest Labs
Et vous ?
Avez-vous utilisé cet outil ou un outil similaire pour votre usage, et si oui qu'en pensez-vous ?
Voir aussi :
Des chercheurs clés quittent la société à l'origine de Stable Diffusion, l'IA de conversion texte-image, après l'accusation d'avoir récupéré d'énormes quantités de données auprès des concurrents
Les choses sont sur le point d'empirer pour l'IA générative : DALL-E d'OpenAI et Midjourney ont généré des images et marques protégées, sans y être invités par des utilisateurs
Image Creator : le nouveau générateur d'images par IA de Microsoft Paint s'appuie sur vos coups de pinceau et permet d'utiliser DALL-E pour générer des images réalistes à partir de description textuelle
Partager