Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires

**Jade Emy** · 19/04/2024, 07h06

Meta annonce que Llama 3 est "le LLM le plus performant à ce jour", bientôt disponible sur AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM et Snowflake.

Meta présente Meta Llama 3 qui serait "le grand modèle de langage le plus performant et le plus accessible à ce jour".

Meta présente Meta Llama 3, la prochaine génération de son grand modèle de langage open source à la pointe de la technologie. Les modèles Llama 3 seront bientôt disponibles sur AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM et Snowflake, et avec le support de plateformes matérielles proposées par AMD, AWS, Dell, Intel, NVIDIA et Qualcomm.

Meta vient de partager les deux premiers modèles de la nouvelle génération de Llama, Meta Llama 3, disponible pour une large utilisation. Cette version propose des modèles de langage pré-entraînés et affinés par des instructions avec des paramètres 8B et 70B qui peuvent prendre en charge un large éventail de cas d'utilisation. Cette nouvelle génération de Llama démontre des performances de pointe sur une large gamme de références industrielles et offre de nouvelles capacités, y compris un raisonnement amélioré.

Meta affirme qu'il s'agit des meilleurs modèles open source de leur catégorie, point final. En soutien à son approche ouverte de longue date, Meta déclare "mettre Llama 3 entre les mains de la communauté." "Nous voulons donner le coup d'envoi à la prochaine vague d'innovation dans le domaine de l'IA, qu'il s'agisse d'applications, d'outils de développement, d'évaluations, d'optimisations de l'inférence ou de bien d'autres choses encore. Nous sommes impatients de voir ce que vous allez construire et nous attendons avec impatience vos commentaires", ajoute Meta.

Meta commente l'annonce en déclarant :

Nous nous engageons à développer Llama 3 de manière responsable et nous proposons diverses ressources pour aider les autres à l'utiliser de manière responsable également. Cela inclut l'introduction de nouveaux outils de confiance et de sécurité avec Llama Guard 2, Code Shield et CyberSec Eval 2. Dans les mois à venir, nous prévoyons d'introduire de nouvelles capacités, des fenêtres contextuelles plus longues, des tailles de modèles supplémentaires et des performances améliorées, et nous partagerons le document de recherche sur le Llama 3. Meta AI, conçu à partir de la technologie Llama 3, est désormais l'un des principaux assistants IA au monde, capable de stimuler votre intelligence et d'alléger votre charge de travail, en vous aidant à apprendre, à accomplir des tâches, à créer du contenu et à vous connecter afin de tirer le meilleur parti de chaque instant.

Les objectifs de Meta pour Llama 3

Avec Llama 3, Meta a entrepris de construire les meilleurs modèles ouverts qui soient au même niveau que les meilleurs modèles propriétaires disponibles aujourd'hui.

Meta :

Nous voulions tenir compte des commentaires des développeurs afin d'améliorer l'utilité globale de Llama 3 et nous le faisons tout en continuant à jouer un rôle de premier plan dans l'utilisation et le déploiement responsables des LLM. Nous adhérons à l'éthique de l'open source qui consiste à publier tôt et souvent afin de permettre à la communauté d'accéder à ces modèles alors qu'ils sont encore en cours de développement.

Les modèles textuels que Meta publie sont les premiers de la collection de modèles Llama 3. L'objectif de Meta dans un futur proche est de rendre Llama 3 multilingue et multimodal, d'avoir un contexte plus long, et de continuer à améliorer la performance globale à travers les capacités principales de LLM telles que le raisonnement et le codage.

Performances de pointe

Meta annonce que ses nouveaux modèles Llama 3 à 8B et 70B paramètres constituent un bond en avant par rapport à Llama 2 et établissent un nouvel état de l'art pour les modèles LLM à ces échelles.

Meta :

Grâce aux améliorations apportées à la pré-formation et à la post-formation, nos modèles pré-formés et affinés par des instructions sont les meilleurs modèles existant aujourd'hui à l'échelle des paramètres 8B et 70B. Les améliorations apportées à nos procédures de post-entraînement ont permis de réduire considérablement les taux de faux refus, d'améliorer l'alignement et d'accroître la diversité des réponses des modèles. Nous avons également constaté une amélioration considérable des capacités de raisonnement, de génération de code et de suivi des instructions, ce qui rend le Llama 3 plus facile à piloter.

Nom : 1.png
Affichages : 5442
Taille : 130,8 Ko

Lors du développement de Llama 3, Meta a examiné les performances du modèle sur des points de référence standard et ils ont également cherché à optimiser les performances pour les scénarios du monde réel.

Meta :

À cette fin, nous avons développé un nouvel ensemble d'évaluation humaine de haute qualité. Cet ensemble d'évaluation contient 1 800 invites qui couvrent 12 cas d'utilisation clés : demande de conseils, brainstorming, classification, réponse à des questions fermées, codage, écriture créative, extraction, habiter un personnage, réponse à des questions ouvertes, raisonnement, réécriture et résumé. Pour éviter un surajustement accidentel de nos modèles sur cet ensemble d'évaluation, même nos propres équipes de modélisation n'y ont pas accès.

Le tableau ci-dessous montre les résultats agrégés de ces évaluations humaines à travers ces catégories et invites par rapport à Claude Sonnet, Mistral Medium et GPT-3.5.

Nom : 2.png
Affichages : 751
Taille : 62,6 Ko

Les classements des préférences des annotateurs humains basés sur cet ensemble d'évaluations mettent en évidence les performances du modèle de suivi des instructions 70B par rapport à des modèles concurrents de taille comparable dans des scénarios réels.

Le modèle pré-entraîné établit également un nouvel état de l'art pour les modèles LLM à ces échelles.

Nom : 3.png
Affichages : 743
Taille : 101,0 Ko

Pour développer un modèle de language de qualité, Meta pense qu'il est important d'innover, de mettre à l'échelle et d'optimiser la simplicité. Ils ont adopté cette philosophie de conception tout au long du projet Llama 3 en se concentrant sur quatre ingrédients clés : l'architecture du modèle, les données de pré-entraînement, la mise à l'échelle du pré-entraînement et le réglage fin des instructions. Les voici :

Architecture du modèle

Conformément à notre philosophie de conception, nous avons opté pour une architecture relativement standard de transformateur de décodeur uniquement dans Llama 3. Par rapport à Llama 2, nous avons apporté plusieurs améliorations importantes. Llama 3 utilise un tokenizer avec un vocabulaire de 128K tokens qui encode le langage beaucoup plus efficacement, ce qui conduit à une amélioration substantielle de la performance du modèle. Pour améliorer l'efficacité de l'inférence des modèles Llama 3, nous avons adopté l'attention portée aux requêtes groupées (GQA) pour les tailles 8B et 70B. Nous avons entraîné les modèles sur des séquences de 8 192 tokens, en utilisant un masque pour s'assurer que l'auto-attention ne dépasse pas les limites du document.
Données d'entraînement

Pour former le meilleur modèle de langage, la curation d'un grand ensemble de données d'entraînement de haute qualité est primordiale. Conformément à nos principes de conception, nous avons investi massivement dans les données de pré-entraînement. Llama 3 est pré-entraîné sur plus de 15T tokens qui ont tous été collectés à partir de sources accessibles au public. Notre ensemble de données d'entraînement est sept fois plus important que celui utilisé pour Llama 2, et il comprend quatre fois plus de code. Pour préparer les cas d'utilisation multilingues à venir, plus de 5 % de l'ensemble de données de préformation de Llama 3 est constitué de données non anglaises de haute qualité qui couvrent plus de 30 langues. Cependant, nous n'attendons pas le même niveau de performance dans ces langues qu'en anglais.

Pour s'assurer que Llama 3 est formé sur des données de la plus haute qualité, nous avons développé une série de pipelines de filtrage de données. Ces pipelines comprennent l'utilisation de filtres heuristiques, de filtres NSFW, d'approches de déduplication sémantique et de classificateurs de texte pour prédire la qualité des données. Nous avons constaté que les générations précédentes de Llama sont étonnamment bonnes pour identifier les données de haute qualité, c'est pourquoi nous avons utilisé Llama 2 pour générer les données d'entraînement pour les classificateurs de qualité de texte qui alimentent Llama 3.

Nous avons également réalisé des expériences approfondies afin d'évaluer les meilleures façons de mélanger des données provenant de différentes sources dans notre ensemble de données final de préformation. Ces expériences nous ont permis de sélectionner un mélange de données qui garantit les performances de Llama 3 dans tous les cas d'utilisation, y compris les questions anecdotiques, les STIM, le codage, les connaissances historiques, etc.
Mise à l'échelle du pré-entraînement

Afin d'exploiter efficacement nos données de pré-entraînement dans les modèles Llama 3, nous avons consacré des efforts considérables à l'extension de la pré-entraînement. Plus précisément, nous avons développé une série de lois d'échelle détaillées pour les évaluations de référence en aval. Ces lois d'échelle nous permettent de sélectionner un mélange de données optimal et de prendre des décisions éclairées sur la manière d'utiliser au mieux notre calcul d'entraînement. Il est important de noter que les lois d'échelle nous permettent de prédire les performances de nos plus grands modèles sur des tâches clés (par exemple, la génération de code telle qu'évaluée par le benchmark HumanEval - voir ci-dessus) avant que nous n'entraînions réellement les modèles. Cela nous aide à garantir une bonne performance de nos modèles finaux dans une variété de cas d'utilisation et de capacités.

Nous avons fait plusieurs nouvelles observations sur le comportement de mise à l'échelle au cours du développement du Llama 3. Par exemple, alors que la quantité optimale de calcul d'entraînement de Chinchilla pour un modèle de 8B paramètres correspond à ~200B tokens, nous avons constaté que la performance du modèle continue à s'améliorer même après que le modèle ait été entraîné sur deux ordres de grandeur de données supplémentaires. Nos modèles à 8B et 70B paramètres ont continué à s'améliorer de manière log-linéaire après avoir été entraînés sur 15T tokens. Les modèles plus grands peuvent égaler les performances de ces modèles plus petits avec moins de calcul d'entraînement, mais les modèles plus petits sont généralement préférés parce qu'ils sont beaucoup plus efficaces pendant l'inférence.

Pour former nos plus grands modèles Llama 3, nous avons combiné trois types de parallélisation : parallélisation des données, parallélisation des modèles et parallélisation du pipeline. Notre implémentation la plus efficace atteint une utilisation de calcul de plus de 400 TFLOPS par GPU lors de l'entraînement sur 16K GPU simultanément. Nous avons effectué l'entraînement sur deux grappes de 24 000 GPU construites sur mesure. Pour maximiser le temps de fonctionnement des GPU, nous avons développé une nouvelle pile de formation avancée qui automatise la détection, le traitement et la maintenance des erreurs. Nous avons également grandement amélioré la fiabilité du matériel et les mécanismes de détection de la corruption silencieuse des données, et nous avons développé de nouveaux systèmes de stockage évolutifs qui réduisent les frais généraux liés aux points de contrôle et aux retours en arrière. Ces améliorations ont permis de réduire le temps de formation effectif global de plus de 95 %. Ensemble, ces améliorations ont permis de multiplier par trois l'efficacité de l'entraînement de Llama 3 par rapport à Llama 2.
Réglage fin des instructions

Pour exploiter pleinement le potentiel de nos modèles pré-entraînés dans les cas d'utilisation du chat, nous avons également innové dans notre approche du réglage des instructions. Notre approche du post-entraînement est une combinaison de réglage fin supervisé (SFT), d'échantillonnage de rejet, d'optimisation proximale des politiques (PPO) et d'optimisation directe des politiques (DPO). La qualité des messages-guides utilisés dans le cadre du SFT et des classements de préférences utilisés dans le cadre du PPO et du DPO a une influence considérable sur les performances des modèles alignés. Certaines de nos plus grandes améliorations de la qualité des modèles sont venues d'une curation minutieuse de ces données et de plusieurs cycles d'assurance qualité sur les annotations fournies par des annotateurs humains.

L'apprentissage à partir des classements de préférences via PPO et DPO a également grandement amélioré les performances de Llama 3 dans les tâches de raisonnement et de codage. Nous avons constaté que si vous posez à un modèle une question de raisonnement à laquelle il peine à répondre, le modèle produira parfois la bonne trace de raisonnement : Le modèle sait comment produire la bonne réponse, mais il ne sait pas comment la sélectionner. L'entraînement sur les classements de préférences permet au modèle d'apprendre à la sélectionner.

Construire avec Llama 3

La vision de Meta est de permettre aux développeurs de personnaliser Llama 3 pour prendre en charge des cas d'utilisation pertinents et de faciliter l'adoption des meilleures pratiques et l'amélioration de l'écosystème ouvert. Avec cette version, ils fournissons de nouveaux outils de confiance et de sécurité, y compris des composants mis à jour avec Llama Guard 2 et Cybersec Eval 2, et l'introduction de Code Shield - un garde-fou temporel d'inférence pour filtrer le code non sécurisé produit par les LLM.

Meta a également co-développé Llama 3 avec torchtune, la nouvelle bibliothèque native PyTorch qui permet de créer, d'affiner et d'expérimenter facilement les LLM. torchtune fournit des recettes d'entraînement efficaces en termes de mémoire et modifiables, entièrement écrites en PyTorch. La bibliothèque est intégrée à des plateformes populaires telles que Hugging Face, Weights & Biases et EleutherAI, et prend même en charge Executorch pour permettre l'exécution d'une inférence efficace sur une grande variété d'appareils mobiles et périphériques. Pour tout ce qui concerne l'ingénierie rapide et l'utilisation de Llama 3 avec LangChain, Meta possède un guide de démarrage complet qui vous emmène du téléchargement de Llama 3 jusqu'au déploiement à grande échelle dans votre application d'IA générative.

Une approche de la responsabilité au niveau du système

Meta a conçu les modèles Llama 3 pour qu'ils soient le plus utiles possible, tout en garantissant une approche de pointe en matière de déploiement responsable. Pour ce faire, Meta affirme avoir adopté une nouvelle approche, au niveau du système, du développement et du déploiement responsables des Llama. Ils ont envisagé les modèles Llama comme faisant partie d'un système plus large qui place le développeur dans le siège du conducteur. Les modèles Llama serviront de pièce maîtresse d'un système que les développeurs concevront en fonction de leurs propres objectifs.

Meta :

La mise au point des instructions joue également un rôle majeur pour garantir la sécurité de nos modèles. Nos modèles affinés par les instructions ont été testés en équipe rouge (red-team) pour la sécurité par des efforts internes et externes. Notre approche du red teaming s'appuie sur des experts humains et des méthodes d'automatisation pour générer des messages contradictoires qui tentent de susciter des réponses problématiques. Par exemple, nous appliquons des tests complets pour évaluer les risques d'utilisation abusive liés à la sécurité chimique, biologique et cybernétique, ainsi qu'à d'autres domaines de risque. Tous ces efforts sont itératifs et utilisés pour affiner la sécurité des modèles en cours de publication.

Nom : 4.png
Affichages : 740
Taille : 44,6 Ko

Les modèles de Llama Guard sont conçus pour servir de base à une sécurité rapide et efficace et peuvent facilement être affinés pour créer une nouvelle taxonomie en fonction des besoins de l'application. Comme point de départ, le nouveau Llama Guard 2 utilise la taxonomie MLCommons récemment annoncée, dans un effort pour soutenir l'émergence de normes industrielles dans ce domaine important. En outre, CyberSecEval 2 développe son prédécesseur en ajoutant des mesures de la propension d'un LLM à permettre l'abus de son interpréteur de code, des capacités offensives de cybersécurité et de la susceptibilité aux attaques par injection rapide. Enfin, Meta introduit Code Shield, qui prend en charge le filtrage en temps réel du code non sécurisé produit par les LLM. Cela permet d'atténuer les risques liés aux suggestions de code non sécurisé, à la prévention des abus de l'interpréteur de code et à l'exécution sécurisée des commandes.

Compte tenu de la vitesse à laquelle évolue l'espace de l'IA générative, Meta pense qu'une approche ouverte est un moyen important de rassembler l'écosystème et d'atténuer ces dommages potentiels.

Meta :

Dans ce cadre, nous mettons à jour notre Guide d'utilisation responsable (RUG) qui fournit un guide complet pour un développement responsable avec les LLM. Comme nous l'avons souligné dans le RUG, nous recommandons que toutes les entrées et sorties soient vérifiées et filtrées conformément aux directives de contenu appropriées à l'application. En outre, de nombreux fournisseurs de services cloud proposent des API de modération de contenu et d'autres outils pour un déploiement responsable, et nous encourageons les développeurs à envisager d'utiliser ces options.

Déployer Llama 3 à grande échelle

Llama 3 sera bientôt disponible sur toutes les grandes plateformes, y compris les fournisseurs de services cloud, les fournisseurs d'API de modélisation et bien d'autres encore. Llama 3 sera partout.

Les benchmarks de Meta montrent que le tokenizer offre une meilleure efficacité des tokens, avec jusqu'à 15 % de tokens en moins par rapport à Llama 2. L'attention portée aux requêtes de groupe (GQA) a également été ajoutée à Llama 3 8B. En conséquence, ils ont observé que, bien que le modèle ait 1B paramètres de plus que le Llama 2 7B, l'amélioration de l'efficacité du tokenizer et de la GQA contribue à maintenir l'efficacité de l'inférence au même niveau que celle du Llama 2 7B.

Quelle est la prochaine étape pour Llama 3 ?

Meta affirme que les modèles Llama 3 8B et 70B marquent le début de ce qu'ils prévoient de publier pour le Llama 3.

Meta :

Il y a beaucoup plus à venir. Nos plus grands modèles ont des paramètres de plus de 400B et, bien que ces modèles soient encore en cours de formation, notre équipe est très enthousiaste quant à leur évolution. Au cours des prochains mois, nous publierons plusieurs modèles dotés de nouvelles fonctionnalités, notamment la multimodalité, la possibilité de converser en plusieurs langues, une fenêtre contextuelle beaucoup plus longue et des capacités globales plus solides. Nous publierons également un document de recherche détaillé une fois que nous aurons terminé la formation du Llama 3.

Pour donner un aperçu de l'état d'avancement de ces modèles au fur et à mesure de leur formation, Meta partage quelques faits de la tendance de son plus grand modèle LLM. Veuillez noter que ces données sont basées sur un point de contrôle précoce du Llama 3 qui est encore en formation et que ces capacités ne sont pas prises en charge dans le cadre des modèles publiés aujourd'hui.

Nom : 5.png
Affichages : 731
Taille : 125,6 Ko

Meta s'engage à poursuivre la croissance et le développement d'un écosystème d'IA ouvert pour diffuser ses modèles de manière responsable.

Meta :

Nous pensons depuis longtemps que l'ouverture permet d'obtenir des produits meilleurs et plus sûrs, d'accélérer l'innovation et d'assainir le marché dans son ensemble. Nous adoptons une approche communautaire avec Llama 3, et à partir d'aujourd'hui, ces modèles sont disponibles sur les principales plateformes de cloud, d'hébergement et de matériel, et bien d'autres sont à venir.

Essayez Meta Llama 3

Meta annonce avoir intégré ses derniers modèles dans Meta AI. Il est désormais construit avec la technologie Llama 3 et est disponible dans plus de pays à travers leurs applications.

Il est possible d'utiliser Meta AI sur Facebook, Instagram, WhatsApp, Messenger et sur le web pour accomplir des tâches, apprendre, créer et vous connecter.

Visitez le site web de Llama 3 (le lien est dans la source) pour télécharger les modèles et consultez le Guide de démarrage pour obtenir la liste la plus récente de toutes les plateformes disponibles.

Il sera également bientôt possible de tester l'IA multimodale de Meta sur les lunettes intelligentes Ray-Ban Meta.

Source : Meta Llama 3

Et vous ?

Quel est votre avis sur cette annonce ?

Pensez-vous que l'affirmation de Meta sur Llama 3 est crédible ou pertinente ?

Voir aussi :

Meta prévoit de lancer la nouvelle version de son LLM d'IA Llama 3 en juillet, avec pour objectif de créer une intelligence artificielle générale (AGI) supérieure à l'intelligence humaine

Construire l'infrastructure GenAI de Meta : la société partage les détails sur deux nouveaux clusters de 24 000 GPU, qui ont été conçus pour soutenir la recherche et le développement en matière d'IA

Llama 2 : l'IA gratuite et open source de Meta n'est pas bon marché à utiliser, estiment certaines entreprises, qui notent que Llama 2 nécessite beaucoup de ressources informatiques pour fonctionner

**Stéphane le calme** · 25/04/2024, 19h17

Les capacités de Llama 3 8b se rapprochent de celles de Wizard 2 8x22b, selon un ingénieur du CNRS.
Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires

Meta a lancé Llama-3 il y a quelques jours, et les benchmarks suggèrent que l'on arrive progressivement au point d'inflexion où les modèles open source comblent l'écart avec les modèles propriétaires. Selon les tests d'un ingénieur du CNRS, les performances de Llama 3 8b se rapprochent de celles de Wizard 2 8x22b, ce dernier modèle ayant pourtant 140 milliards de paramètres.

Meta a partagé les deux premiers modèles de la nouvelle génération de Llama, Meta Llama 3, disponible pour une large utilisation. Cette version propose des modèles de langage pré-entraînés et affinés par des instructions avec des paramètres 8B et 70B qui peuvent prendre en charge un large éventail de cas d'utilisation. Cette nouvelle génération de Llama démontre des performances de pointe sur une large gamme de références industrielles et offre de nouvelles capacités, y compris un raisonnement amélioré.

Meta affirme qu'il s'agit des meilleurs modèles open source de leur catégorie. En soutien à son approche ouverte de longue date, Meta déclare « mettre Llama 3 entre les mains de la communauté » : « Nous voulons donner le coup d'envoi à la prochaine vague d'innovation dans le domaine de l'IA, qu'il s'agisse d'applications, d'outils de développement, d'évaluations, d'optimisations de l'inférence ou de bien d'autres choses encore. Nous sommes impatients de voir ce que vous allez construire et nous attendons avec impatience vos commentaires », a ajouté Meta.

Les premiers benchmarks montrent que Llama-3 70B est assez proche de GPT-4 dans de nombreuses tâches

La page Meta officielle montre seulement que Llama-3 est plus performant que Gemini 1.5 et Claude Sonnet.
L'analyse artificielle montre que Llama-3 se situe entre Gemini-1.5 et Opus/GPT-4 pour la qualité.
Sur le LMSYS Chatbot Arena Leaderboard, Llama-3 est classé 5ème alors que les modèles actuels GPT-4 et Claude Opus sont toujours à égalité au 1er rang.

Le modèle Llama-3 400B+, encore plus puissant, est toujours en cours de formation et devrait surpasser GPT-4 et Opus dès sa sortie.

WizardLM-2 : le dernier modèle open source de Microsoft

La dernière version, WizardLM-2, se décline en trois versions :

WizardLM-2 8x22B : En tant que modèle le plus avancé de Microsoft, le WizardLM-2 8x22B démontre des performances hautement compétitives par rapport aux modèles propriétaires de premier plan tels que GPT-4. Le modèle 8x22B, qui est le modèle phare, compte 141 milliards de paramètres, ce qui en fait l'un des modèles les plus puissants disponibles dans la communauté open-source.
WizardLM-2 70B : Ce modèle atteint des capacités de raisonnement de premier ordre et est le premier choix dans la catégorie de taille de 70 milliards de paramètres. Il offre un excellent équilibre entre performances et ressources requises.
WizardLM-2 7B : Malgré sa taille plus petite, le WizardLM-2 7B est incroyablement rapide et atteint des performances comparables à celles de modèles open source dix fois plus grands. C’est un choix idéal pour les applications qui nécessitent de l’efficacité sans compromettre la qualité.

Développé sur la base d'une architecture de mélange d'experts (MoE), WizardLM-2 s'appuie sur un système de formation synthétique entièrement alimenté par l'IA, ce qui améliore sa capacité à gérer des conversations multilingues complexes et à effectuer des raisonnements de haut niveau. Ce système sous-tend la capacité du modèle à fournir des réponses raffinées et contextuellement pertinentes dans divers domaines, notamment l'écriture, le codage, les mathématiques, etc.

Performances et applications

Pour évaluer les performances de WizardLM-2, Microsoft a mené des évaluations automatiques et humaines approfondies sur divers benchmarks et scénarios réels. Les résultats parlent d’eux-mêmes :

MT-Bench : Le WizardLM-2 8x22B rivalise avec GPT-4 et Claude 3, se positionnant comme le modèle open source le plus performant dans sa catégorie de taille. De plus, il surpasse GPT-4 dans les évaluations humaines sur des instructions complexes. Son application dans les scénarios du monde réel est vaste, allant de l'amélioration de l'IA conversationnelle à l'alimentation de processus décisionnels complexes dans les environnements commerciaux.
AlpacaEval : Le WizardLM-13B-V1.2 atteint 89,17 %, dépassant le ChatGPT à 86,09 %.

Nom : comparaison.png
Affichages : 6245
Taille : 68,2 Ko

Comparaison des benchmarks WizardLM2 avec GPT-4-1106-preview, Command R Plus, Mistral Large, Qwen 1.5, Straling LM 7B. Source : Page de lancement du modèle, désormais supprimée

WizardLM-2 a été retiré par Microsoft peu de temps après son lancement pour effectuer des tests de « toxicité », mais à ce moment-là, le modèle d’IA avait déjà été téléchargé, forké et réuploadé sur le web. On peut toujours utiliser ce modèle via LM Studio ou Openrouter.ai. Malgré le retrait rapide, le modèle a été favorablement comparé à une version de GPT-4 d’OpenAI. C'est d'ailleurs ce qui a permis à plusieurs curieux de mener des tests.

Invites de test pour l'évaluation de WizardLM-2 et GPT-4

À l'extérieur de Microsoft, plusieurs tests lui ont été soumis, notamment pour tester sa capacité de génération de texte (écriture créative, documentation technique), ses aptitudes à la conversation (via une simulation d'assistance à la clientèle, une discussion aléatoire), en codage et programmation (génération de code, explication de code), en mathématiques et raisonnement (résolution de problèmes mathématiques, raisonnement logique) et bien d'autres.

Par exemple, en codage et programmation, voici ce qui lui a été demandé.

Génération de code : écris un script Python qui lit un fichier CSV, calcule la moyenne des valeurs dans une colonne nommée 'Price', et imprime le résultat.

Réponse de WizardLM-2 : Voici un script Python qui lit un fichier CSV, suppose qu'il y a une colonne nommée 'Price', calcule la moyenne des valeurs de cette colonne, et imprime le résultat. Ce script utilise le module `csv` pour lire le fichier CSV et le module `math` pour les opérations mathématiques.

Code Python :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
```python
import csv
import math
 
def calculate_average(filename):
    total_sum = 0
    count = 0
 
    with open(filename, mode='r', newline='') as csvfile:
        reader = csv.DictReader(csvfile)
        for row in reader:
            try:
                price = float(row['Price'])
                total_sum += price
                count += 1
            except ValueError:
                # Skip the row if 'Price' is not a number
                continue
            except KeyError:
                # Skip the row if 'Price' column does not exist
                continue
 
    average_price = total_sum / count if count > 0 else 0
    return math.ceil(average_price * 100) / 100  # Round to two decimal places
 
def main():
    filename = 'data.csv'  # Replace with your CSV file path
    average = calculate_average(filename)
    print(f"The average price is: ${average}")
 
if __name__ == "__main__":
    main()
```

Veillez à remplacer `'data.csv'` par le chemin réel de votre fichier CSV. Ce script suppose que toutes les cellules non vides sous la colonne 'Price' contiennent des valeurs numériques qui peuvent être converties en nombres flottants. S'il y a des lignes où la colonne 'Price' est manquante ou contient des données non numériques, elles seront ignorées pendant le calcul.

Pour exécuter ce script, vous devez disposer d'un environnement Python avec les autorisations nécessaires pour accéder au fichier CSV. Si votre fichier CSV a un en-tête de colonne différent pour les prix, ajustez la partie `row['Price']` en conséquence.

Explication de code : « Voici un extrait de JavaScript : async function fetchData() { const response = await fetch('https://api.example.com/data') ; const data = await response.json() ; console.log(data) ; } fetchData(); explique ce que fait ce code et comment il fonctionne. »

Réponse de WizardLM-2 : L'extrait JavaScript fourni définit une fonction asynchrone nommée `fetchData` qui récupère des données à partir d'un point de terminaison API spécifié, traite la réponse et enregistre le résultat dans la console. Voici une explication étape par étape de ce que fait chaque partie du code :

Déclaration de la fonction : le mot-clé async devant function fetchData() indique que cette fonction effectuera des opérations asynchrones en utilisant await. Il permet à la fonction de suspendre son exécution jusqu'à ce qu'une expression await soit résolue, puis de reprendre l'exécution à partir du point de suspension.
Appel API Fetch : Dans la fonction fetchData, const response = await fetch('https://api.example.com/data'); effectue une requête GET à l'URL spécifiée en utilisant la fonction fetch. Le mot clé await est utilisé pour attendre que la promesse retournée par fetch soit résolue avant de passer à la ligne de code suivante.
Gestion des réponses : Une fois l'appel fetch terminé, response contiendra la réponse du serveur (par exemple, une réponse `200 OK` avec un corps contenant les données). Le code attend alors la consommation de cette réponse en appelant response.json(). Cette méthode renvoie une promesse qui se résout avec le résultat de l'analyse du corps de la réponse en JSON.
Analyse JSON : Après avoir attendu que le JSON soit analysé, const data = await response.json(); assigne l'objet JSON analysé à la variable data. Le mot-clé await assure que la fonction ne continuera pas jusqu'à ce que l'analyse JSON soit terminée.
Enregistrement des données : Enfin, console.log(data); affiche l'objet data sur la console. Cela vous permet d'inspecter le contenu des données renvoyées par l'appel API.
Invocation de la fonction : La dernière ligne fetchData(); appelle la fonction fetchData, initiant l'opération asynchrone pour récupérer et enregistrer les données.

Lorsque ce code est exécuté dans un environnement d'exécution JavaScript (comme un navigateur web ou Node.js), il effectue une requête HTTP GET vers 'https://api.example.com/data', analyse la réponse JSON et imprime l'objet de données résultant sur la console.

Il est important de noter que fetchData retourne une promesse lorsqu'elle est appelée, qui se résout avec la valeur de data. Cela signifie que vous pouvez aussi utiliser fetchData() dans des patterns async/await ailleurs dans votre code ou l'enchaîner avec then() pour d'autres opérations asynchrones.

Les capacités de Llama 3 8b se rapprochent de celles de Wizard 2 8x22b, selon un ingénieur du CNRS

Maziyar PANAHI, Big Data Engineer/SysAdmin CNRS, a été stupéfait par les réponses de Llama 3 8b. Il a cité plusieurs exemple de réponses de Llama 3 8b, assurant que l'une des questions n'étaient répondu correctement que par GPT-4 et OPUS. Il s'agit de celle-ci :

Question : J'ai 10 pommes. Je trouve 3 pièces d'or au fond d'une rivière. La rivière coule près d'une grande ville qui a un rapport avec ce à quoi je peux dépenser les pièces. Je perds alors 4 pommes mais je gagne une pièce d'or. Trois oiseaux courent sur mon chemin et laissent tomber 6 pommes chacun. Je joue à un jeu en ligne et je gagne 6 pièces d'or, mais je dois les partager équitablement avec mes deux coéquipiers. J'achète des pommes pour toutes les pièces dont je dispose. Le prix d'une pomme est de 0,5 pièce. Combien de pommes ai-je ? Et où se trouve la rivière ?

Réponse de Llama 3 8b :

Décortiquons les changements que vous avez subis, étape par étape !

Vous commencez avec 10 pommes.
Vous trouvez 3 pièces d'or dans la rivière, ce qui n'affecte pas votre nombre de pommes.
Vous perdez 4 pommes, ce qui vous laisse 6 pommes (10 - 4 = 6).
Les oiseaux laissent tomber 6 pommes chacun, ce qui fait un total de 18 nouvelles pommes (6 x 3 = 18). En les ajoutant aux pommes restantes, vous obtenez un total de 24 pommes (6 + 18 = 24).
Vous gagnez 6 pièces d'or dans le jeu, mais vous devez les partager équitablement avec vos coéquipiers. Cela signifie que vous obtenez 2 pièces d'or (6 ÷ 3 = 2).
Vous dépensez toutes les pièces d'or que vous avez (y compris les 3 initiales et les 2 nouvelles) pour acheter des pommes, puisque chaque pomme coûte 0,5 pièce.

Calculons le nombre de pommes que vous pouvez acheter avec le total de vos pièces d'or :

Vous avez un total de 5 pièces d'or (3 + 2). Comme chaque pomme coûte 0,5 pièce, vous pouvez en acheter :

5 pièces ÷ 0,5 pièce/pomme = 10 pommes

En ajoutant ces pommes à celles que vous aviez déjà, vous obtenez un total de :

24 pommes + 10 pommes = 34 pommes

Pour ce qui est de l'emplacement de la rivière, elle passe près d'une grande ville qui vous permet de dépenser les pièces d'or pour acheter quelque chose (des pommes). Comme vous avez trouvé les pièces d'or dans la rivière et que vous êtes ensuite allé jouer à un jeu en ligne avec vos coéquipiers, il est probable que la ville soit proche ou facilement accessible.

Vous avez maintenant 34 pommes !

Meta contre OpenAI

Certains pensent que l'objectif de Meta, dès le départ, était de cibler OpenAI avec une approche « terre brûlée » en publiant des modèles ouverts puissants pour perturber le paysage concurrentiel et éviter d'être distancé dans la course à l'IA.

Meta peut probablement dépenser plus qu'OpenAI en termes de calcul et de talents :

OpenAI réalise un chiffre d'affaires estimé à 2 milliards de dollars et n'est probablement pas rentable. Meta a généré un revenu de 134 milliards de dollars et des bénéfices de 39 milliards de dollars en 2023.
Les ressources de calcul de Meta sont probablement plus importantes que celles d'OpenAI à l'heure actuelle.
L'open source attire probablement de nombreux talents et chercheurs.

L'une des conséquences possibles pourrait être l'acquisition d'OpenAI par Microsoft pour rattraper Meta. Google fait également des progrès dans le domaine des modèles ouverts et dispose de capacités similaires à celles de Meta. Il sera intéressant de voir où ils s'intègrent.

En attendant, avec la sortie de Llama-3, les opportunités pour les développeurs sont énormes :

Fini le verrouillage des fournisseurs.
Au lieu de se contenter d'envelopper des points d'extrémité d'API propriétaires, les développeurs peuvent désormais intégrer l'IA en profondeur dans leurs produits d'une manière très rentable et performante. Il existe déjà plus de 800 variations de modèles de lama-3 sur Hugging Face, et il semble que tout le monde sera en mesure de les adapter à ses cas d'utilisation, à ses langues ou à son secteur d'activité.
Du matériel plus rapide et moins cher : Groq peut désormais générer 800 jetons de lama-3 par seconde pour une petite fraction des coûts de GPT. Des réponses LLM quasi-instantanées à bas prix se profilent à l'horizon.

Sources : Maziyar PANAHI (1, 2), WizardLM-2-7B-GGUF

Et vous ?

Que pensez-vous des exemples tests de Maziyar PANAHI ? Lequel vous intéresse le plus ?

Seriez-vous intéressé par l'utilisation de Llama 3 ou Wizard 2 dans votre domaine d'activité ? Si oui, pourquoi et quelle version, si non, pourquoi pas ?

Comment ces modèles pourraient-il transformer notre façon de développer des logiciels ?

Selon vous, quel modèle offre le meilleur équilibre entre performance et accessibilité pour les développeurs indépendants ?

Quels sont les défis associés à l’utilisation de modèles de langage aussi avancés ?

Comment la polyvalence linguistique de Llama 3 8B pourrait-elle influencer l’apprentissage des langues ?

En quoi les capacités de raisonnement de Wizard 2 8x22B et Llama 3 8B pourraient-elles bénéficier à des secteurs non technologiques ?

Quel impact pensez-vous que ces modèles auront sur l’avenir de l’intelligence artificielle ?

Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires

Intelligence artificielle

Discussions similaires

Partager

Partager