Falcon 180B : un modèle open source avec 180 milliards de paramètres entraînés sur 3 500 milliards de jetons

**Mathis Lucas** · 07/09/2023, 12h25

Falcon 180B : un modèle d'IA open source avec 180 milliards de paramètres entraînés sur 3 500 milliards de jetons
il serait plus performant que le modèle Llama 2 de Meta et égale PaLM-2 de Google

L'Institut de l'innovation technologique (TII) d'Abu Dhabi, aux Émirats arabes unis, vient de dévoiler Falcon 180B, un grand modèle de langage (LLM) avec un nombre impressionnant de 180 milliards de paramètres. Entraîné sur 3 500 milliards de jetons, Falcon 180B aurait des performances surpassant celles du modèle d'IA Llama 2 de Meta, des capacités comparables à celles de modèles fermés comme PaLM-2 Large de Google et se classerait juste en dessous de GPT-4 d'OpenAI. Falcon 180B sera proposé en libre accès à des fins de recherche et commerciales. Le TII d'Abu Dhabi affirme que Falcon 180B est le plus puissant modèle d'IA open source au monde.

Le LLM Falcon 180B constitue un ajout important à la liste existante des modèles de langage open source. Le lancement du Falcon 180B fait suite à l'introduction de ses homologues plus petits, les Falcon 1B, 7B et 40B, qui ont été lancés en juin. Annoncé dans un billet de blogue par la communauté Hugging Face AI, Falcon 180B a été publié le 6 septembre sur Hugging Face Hub. Son architecture s'appuie sur la série précédente de LLM Falcon, en tirant parti d'innovations telles que le traitement des requêtes multi-instructions pour passer à 180 milliards de paramètres entraînés sur 3 500 milliards de jetons provenant de l'ensemble de données RefinedWeb du TII.

Ce cycle d'entraînement représente le plus long préentraînement d'une seule époque pour un modèle open source. Pour atteindre de telles marques, 4 096 GPU auraient été utilisés simultanément pendant environ 7 millions d'heures de GPU, en utilisant Amazon SageMaker pour l'entraînement et l'affinage. Pour mettre en perspective la taille du Falcon 180B, ses paramètres sont 2,5 fois plus grands que le modèle LLaMA 2 de Meta. LLaMA 2 était auparavant considéré comme le LLM open source le plus performant après son lancement en juillet dernier. Selon les données de Meta, LLaMA 2 compte 70 milliards de paramètres entraînés sur 2 000 milliards de jetons.

Falcon 180B surpasse LLaMA 2 et d'autres modèles à la fois en matière d'échelle et de performances dans toute une série de tâches de traitement du langage naturel (NLP). Falcon 180B se classe au premier rang du classement Hugging Face des modèles en libre accès avec 68,74 points et atteint presque la parité avec des modèles commerciaux comme le PaLM-2 de Google sur des évaluations telles que le benchmark HellaSwag. Plus précisément, les données de l'équipe montrent que Falcon 180B égale ou dépasse PaLM-2 Medium sur des critères de référence couramment utilisés, notamment HellaSwag, LAMBADA, WebQuestions, Winogrande, etc.

Falcon 180B est pratiquement au même niveau que PaLM-2 Large de Google. Cela représente une performance extrêmement forte pour un modèle open source, même lorsqu'il est comparé à des solutions développées par des géants de l'industrie. Comparé à ChatGPT, le modèle serait plus puissant que la version gratuite, mais moins performant que le service payant ChatGPT Plus, lancé au début de l'année. « Falcon 180B se situe entre GPT-3.5 et GPT-4 en fonction du benchmark d'évaluation, et il sera très intéressant de suivre les améliorations apportées par la communauté maintenant qu'il est disponible en libre accès », explique l'équipe de l'Institut.

Pour les personnes recherchant des capacités conversationnelles prêtes à l'emploi, le TII propose Falcon 180B-Chat, un dérivé du Falcon 180B, affiné sur un mélange d'ensembles de données de chat. La variante Chat présente ses propres avantages, avec une architecture optimisée pour l'inférence. Cependant, elle n'est pas idéale pour ceux qui cherchent à affiner le modèle pour des tâches spécifiques d'instruction ou de conversation. Falcon 180B est maintenant disponible gratuitement sur le portail Hugging Face, et le TII d'Abu Dhabi a déclaré mercredi que le nouveau modèle d'IA pouvait être utilisé à des fins de recherche et de commercialisation.

Nom : uert.png
Affichages : 64476
Taille : 35,9 Ko

Falcon 180B

L'équipe de recherche s'attend également à ce qu'il bénéficie d'améliorations supplémentaires développées par la communauté. « Le lancement de Falcon 180B illustre notre dévouement à repousser les frontières de l'IA, et nous sommes ravis de partager son potentiel illimité avec le monde. Falcon 180B annonce une nouvelle ère d'IA générative, où le progrès scientifique potentiel est rendu disponible grâce au libre accès, ce qui permet d’alimenter les innovations de l’avenir », a déclaré mercredi le Dr Ebtesam Almazrouei, directrice exécutive et chercheuse en chef par intérim de l’unité transversale du TII consacrée à l'IA, dans un communiqué.

Almazrouei ajoute : « alors que nous explorons les frontières de la science et de la technologie, notre vision s'étend bien au-delà de l'innovation ; il s'agit d’entretenir des liens solides pour relever les défis mondiaux grâce à des percées collaboratives ». La sortie du Falcon 180B représente la dernière avancée dans les progrès rapides réalisés récemment avec les LLM. Il est compatible avec les principales langues suivantes : anglais, allemand, espagnol et français, mais il a des capacités limitées en italien, portugais, polonais, néerlandais, roumain, tchèque et suédois. L'équipe n'a pas précisé si la prise en charge de ces langues sera améliorée à l'avenir.

Google et OpenAI, deux principaux pionniers de l'IA, ont maintenu leurs modèles d'IA fermés, affirmant qu'ils s'inquiètent du fait que les LLM puissent être manipulés pour diffuser des infox ou d'autres contenus potentiellement dangereux. OpenAI a refusé de lever le voile sur GPT-4, son plus puissant LLM à ce jour (on ignore même le nombre de paramètres du modèle) et Google a révélé uniquement que Bard est basé sur son LLM LaMDA de 137 milliards de paramètres. Cependant, les partisans des logiciels libres affirment que le fait de maintenir ces systèmes fermés freine injustement l'innovation et entrave leur potentiel d'amélioration du monde.

Nom : zderf.png
Affichages : 11485
Taille : 53,4 Ko

Falcon 180B

Les chercheurs émiriens ont déclaré qu'ils continueront à proposer des LLM en open source afin de démocratiser l'IA. « Nous envisageons un avenir dans lequel le pouvoir révolutionnaire de l'IA sera à la portée de tous. Nous nous engageons à démocratiser l’accès à l’IA avancée, puisque notre vie privée et l’impact potentiel de l’IA sur l’humanité ne doivent pas être contrôlés par quelques privilégiés. Même si nous ne disposons peut-être pas de toutes les réponses, notre détermination reste inébranlable », a déclaré Faisal Al Bannai, secrétaire général du Conseil de recherche en technologie avancée (ATRC) d'Abu Dhabi qui supervise le TII.

« Nous sommes déterminés à collaborer et contribuer à la communauté open source, en veillant à ce que les avantages de l’IA soient partagés par tous », a-t-il ajouté dans le communiqué. Parmi les géants de la Tech qui participe à la course à l'IA, seul Meta a publié son LLM Llama 2 en open source. Vous pouvez facilement essayer le modèle Falcon 180B dans un espace dédié ou directement sur le portail Hugging Face.

Source : Falcon 180B (1, 2)

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des caractéristiques du modèle de langage Falcon 180B ?

Selon vous, les grandes entreprises doivent-elles publier leurs LLM en open source ?

Que pensez-vous des arguments mis en avant par Google et OpenAI pour garder leurs modèles fermés ?

En quoi les modèles d'IA open source contribuent-ils à l'essor du secteur ? Quels sont les risques liés aux modèles open source ?

Voir aussi

La startup Cerebras publie Cerebras-GPT, une famille de modèles linguistiques de type ChatGPT en open source, les sept modèles GPT-3 établissent des records de précision et d'efficacité de calcul

Meta s'associe à Microsoft et lance en open source LLaMA 2 pour faire concurrence à ChatGPT d'OpenAI, l'entreprise pourrait vouloir diluer l'avantage concurrentiel de ses rivaux

Google dispose d'une IA plus puissante, affirme Blake Lemoine, un ancien un ingénieur, aujourd'hui licencié pour avoir prétendu qu'il était doué de sensibilité

**OrthodoxWindows** · 07/09/2023, 14h25

Encore un modèle d'IA qui n'est pas tout à fait open-source, et pas du tout un logiciel libre :

https://falconllm.tii.ae/terms-and-conditions.html
https://falconllm.tii.ae/acceptable-use-policy.html

Normalement, un logiciel libre ne restreint pas l'utilisation qui en est faite, c'est même un des fondements du logiciel libre

https://invidious.fdn.fr/watch?v=W5M-dvzpzSQ

J'attend le modèle d'IA fondé sur une simple licence GPL, MIT ou BSD.

**archqt** · 08/09/2023, 11h42

Bon j'ai pas assez de mémoire pour le faire fonctionner, il faut 400GB au minimum de mémoire

**OrthodoxWindows** · 09/09/2023, 21h19

Envoyé par OrthodoxWindows

Encore un modèle d'IA qui n'est pas tout à fait open-source, et pas du tout un logiciel libre :

https://falconllm.tii.ae/terms-and-conditions.html
https://falconllm.tii.ae/acceptable-use-policy.html

Normalement, un logiciel libre ne restreint pas l'utilisation qui en est faite, c'est même un des fondements du logiciel libre

https://invidious.fdn.fr/watch?v=W5M-dvzpzSQ

J'attend le modèle d'IA fondé sur une simple licence GPL, MIT ou BSD.

Pour celui qui m'a mis un

:

https://katedowninglaw.com/2023/07/1...h-responsible/

Technically, these licenses are not open source licenses per the definitions of open source promulgated by the Open Source Initiative or the Free Software Foundation. The use restrictions in these licenses’ Attachment A, such as a ban on using the models to provide medical advice or medical results or using them for law enforcement, discriminate against particular fields of endeavor in contravention of fundamental open source principles. Because the licenses allow licensees to pass on the models under their own licenses of choice, provided they flow down the use restrictions, the licenses only promise a very limited amount of “openness” or “freedom” in the traditional OSS-specific sense. Unlike open source licenses, downstream users of RAIL-licensed models are not required to receive the same rights to use, modify, or distribute the models as the original licensee.

**Jade Emy** · 13/05/2024, 22h18

Un institut de recherche gouvernemental des Émirats arabes unis a publié un nouveau modèle d'IA générative open-source : Falcon 2 11B, déclaré comme "surclassant le nouveau Llama 3 de Meta"

L'Institut d'innovation technologique des Émirats arabes unis lance une nouvelle série de modèles d'IA pour concurrencer les grandes entreprises technologiques. La série Falcon 2 est open-source et serait plus performants que le nouveau Llama 3 de Meta

Le Technology Innovation Institute (TII) est un institut de recherche financé par le gouvernement d'Abu Dhabi qui opère dans les domaines de l'intelligence artificielle, de l'informatique quantique, de la robotique autonome, de la cryptographie, des matériaux avancés, de la science numérique, de l'énergie dirigée et des systèmes sécurisés.

L'Institut d'innovation technologique (TII) a déclaré qu'il lançait la série Falcon 2 : Falcon 2 11B, un modèle basé sur le texte, et Falcon 2 11B VLM, un modèle vision-langage qui peut générer une description textuelle d'une image téléchargée. La série Falcon 2 est un modèle d'IA open-source, multilingue et multimodal, et est doté de capacités de conversion de la vision au langage. Le nouveau Falcon 2 11B surpasse le Llama 3 8B de Meta et affiche des performances comparables à celles du modèle Gemma 7B de Google, comme l'a vérifié de manière indépendante le Hugging Face Leaderboard. Les plans immédiats comprennent l'exploration du "mélange d'experts" pour améliorer les capacités d'apprentissage automatique.

Les Émirats arabes unis, grand exportateur de pétrole et puissance influente du Moyen-Orient, investissent massivement dans l'intelligence artificielle. Mais ce pari a également attiré l'attention des autorités américaines qui, l'année dernière, ont posé un ultimatum : la technologie américaine ou la technologie chinoise. L'entreprise émiratie G42, spécialisée dans l'intelligence artificielle, a retiré le matériel chinois et a cédé des participations dans des entreprises chinoises avant d'obtenir un investissement de 1,5 milliard de dollars de la part de Microsoft, en coordination avec Washington.

Le secrétaire général du Conseil de recherche sur les technologies avancées, Faisal Al Bannai, qui est également conseiller du président pour la recherche stratégique et les technologies avancées, a déclaré que les Émirats arabes unis démontraient qu'ils pouvaient être un acteur majeur dans le domaine de l'intelligence artificielle. La série Falcon 2 intervient alors que les entreprises et les pays se lancent dans une course au développement de leurs propres grands modèles de langage après la sortie en 2022 de ChatGPT par OpenAI. Si certains ont choisi de garder leur code d'IA propriétaire, d'autres, comme Falcon des Émirats arabes unis et Llama de Meta, ont mis leur code à la disposition de tous.

M. Al Bannai s'est dit optimiste quant aux performances de Falcon 2 et a indiqué qu'il travaillait sur la "génération Falcon 3". "Nous sommes très fiers de pouvoir encore nous surpasser et de pouvoir rivaliser avec les meilleurs modèles du monde", a-t-il déclaré.

Falcon 2 : la nouvelle série de modèles d'IA open-source des Émirats arabes unis

Le Technology Innovation Institute (TII), un centre de recherche scientifique mondial de premier plan et le pilier de recherche appliquée du Conseil de recherche en technologies avancées (ATRC) d'Abou Dhabi, a lancé une deuxième itération de son célèbre grand modèle de langage (LLM) - Falcon 2. Dans le cadre de cette série, elle a dévoilé deux versions révolutionnaires : Falcon 2 11B, un LLM plus efficace et plus accessible, entraîné sur 5,5 trillions de tokens avec 11 milliards de paramètres, et Falcon 2 11B VLM, qui se distingue par ses capacités de conversion de la vision en modèle de langage (VLM), qui permettent une conversion transparente des entrées visuelles en sorties textuelles. Bien que les deux modèles soient multilingues, le Falcon 2 11B VLM est un modèle multimodal et possède cette capacité de conversion d'image en texte, ce qui marque une avancée significative dans l'innovation en matière d'IA.

La TII commente les performances du modèle :

Testé par rapport à plusieurs modèles d'IA de premier plan dans sa catégorie parmi les modèles pré-entraînés, Falcon 2 11B surpasse les performances du tout nouveau Llama 3 de Meta avec 8 milliards de paramètres (8B), et fait jeu égal avec Gemma 7B de Google à la première place (Falcon 2 11B : 64,28 contre Gemma 7B : 64,29), comme l'a vérifié de manière indépendante Hugging Face, une plateforme basée aux États-Unis qui héberge un outil d'évaluation objectif et un classement mondial pour les LLM ouverts. Plus important encore, le Falcon 2 11B et le 11B VLM sont tous deux des logiciels open-source, ce qui permet aux développeurs du monde entier d'y accéder sans restriction. Dans un avenir proche, il est prévu d'élargir la gamme des modèles Falcon 2 de nouvelle génération, en introduisant une série de tailles. Ces modèles seront encore améliorés grâce à des capacités d'apprentissage automatique avancées telles que le "mélange d'experts" (MoE), visant à pousser leurs performances à des niveaux encore plus sophistiqués.

Tous les modèles d'IA de TII publiés à ce jour se sont toujours classés dans le peloton de tête au niveau mondial, en tant que LLM open-source les plus puissants. Les nouveaux modèles Falcon 2 11B, réduits et polyvalents, devraient permettre à TII de s'imposer davantage sur le marché dans le monde en constante évolution de l'IA générative.

Les modèles Falcon 2 11B, dotés de capacités multilingues, s'attaquent en toute transparence à des tâches en anglais, français, espagnol, allemand, portugais et dans d'autres langues, ce qui enrichit leur polyvalence et accroît leur efficacité dans divers scénarios. Le Falcon 2 11B VLM, un modèle de vision-langage, est capable d'identifier et d'interpréter les images et les éléments visuels de l'environnement, ce qui lui permet d'offrir un large éventail d'applications dans des secteurs tels que la santé, la finance, le commerce électronique, l'éducation et le droit. Ces applications vont de la gestion de documents, de l'archivage numérique et de l'indexation contextuelle à l'aide aux personnes souffrant de déficiences visuelles. En outre, ces modèles peuvent fonctionner efficacement sur une seule unité de traitement graphique (GPU), ce qui les rend hautement évolutifs et faciles à déployer et à intégrer dans des infrastructures plus légères telles que les ordinateurs portables et d'autres appareils.

S.E. Faisal Al Bannai, secrétaire général de l'ATRC et conseiller du président des Émirats arabes unis pour les questions de recherche stratégique et de technologie avancée, a déclaré :

"Avec la sortie du Falcon 2 11B, nous avons introduit le premier modèle de la série Falcon 2. Alors que le Falcon 2 11B a démontré des performances exceptionnelles, nous réaffirmons avec lui notre engagement en faveur du mouvement open-source et de la Falcon Foundation. Avec l'arrivée prochaine sur le marché d'autres modèles multimodaux de différentes tailles, notre objectif est de faire en sorte que les développeurs et les entités qui attachent de l'importance à leur vie privée aient accès à l'un des meilleurs modèles d'IA pour leur permettre de se lancer dans l'IA."

S'exprimant sur le modèle, le Dr Hakim Hacid, directeur exécutif et chercheur en chef par intérim de l'unité AI Cross-Center de TII, a déclaré :

"L'IA est en constante évolution et les développeurs reconnaissent les innombrables avantages des modèles plus petits et plus efficaces. En plus de réduire les besoins en puissance de calcul et de répondre aux critères de durabilité, ces modèles offrent une plus grande flexibilité et s'intègrent de manière transparente dans les infrastructures d'IA de pointe, la prochaine mégatendance émergente. En outre, les capacités de conversion de la vision au langage du Falcon 2 ouvrent de nouveaux horizons en matière d'accessibilité à l'IA, en permettant aux utilisateurs de bénéficier d'interactions transformatrices entre l'image et le texte.

La polyvalence du Falcon 2 11B a également conduit TII à envisager de travailler sur des innovations plus excitantes de l'IA générative. Parmi celles-ci, l'adoption d'un nouveau type de capacité d'apprentissage automatique connu sous le nom susmentionné de "mélange d'experts". Cette méthode consiste à fusionner des réseaux plus petits avec des spécialisations distinctes, en veillant à ce que les domaines les mieux informés collaborent pour fournir des réponses hautement sophistiquées et personnalisées - un peu comme si l'on disposait d'une équipe d'assistants intelligents qui connaissent chacun quelque chose de différent et qui travaillent ensemble pour prédire ou prendre des décisions en cas de besoin. Cette approche permet non seulement d'améliorer la précision, mais aussi d'accélérer la prise de décision, ouvrant ainsi la voie à des systèmes d'IA plus intelligents et plus efficaces.

Le Falcon 2 11B est soumis à la licence TII Falcon License 2.0, une licence logicielle permissive basée sur Apache 2.0 qui comprend une politique d'utilisation acceptable qui encourage l'utilisation responsable de l'IA.

Source : Technology Innovation Institute (TII)

Et vous ?

Quel est votre avis sur cette annonce ?

Pensez-vous que cette série de modèle d'IA est crédible ou pertinente ?

Voir aussi :

Falcon 180B : un modèle d'IA open source avec 180 milliards de paramètres entraînés sur 3 500 milliards de jetons, il serait plus performant que le modèle Llama 2 de Meta et égale PaLM-2 de Google

Meta annonce que Llama 3 est "le LLM le plus performant à ce jour", bientôt disponible sur AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM et Snowflake

Quelle est la meilleure option pour les entreprises : des services d'IA libres ou commerciaux ? Défis et limites d'une approche open source de l'intelligence artificielle