Qwen2 : le LLM open source d'Alibaba évolue avec des capacités améliorées et des prouesses multilingues

**Jade Emy** · 08/06/2024, 06h42

Qwen2 : le LLM open source d'Alibaba évolue avec des capacités améliorées et des prouesses multilingues, et serait désormais le meilleur LLM Opensource devant Llama-3, GPT-4O, et Claude

Alibaba présente Qwen2, son grand modèle de langage open source. Elle offre des capacités améliorées en matière de codage et de mathématiques, ainsi que des performances de pointe.

Un grand modèle de langage (LLM) est un modèle informatique qui se distingue par sa capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles que la classification. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé à forte intensité de calcul.

Fondée en 1999, la société Alibaba est principalement connu pour ses services de vente de consommateur à consommateur (C2C), d'entreprise à consommateur (B2C) et d'entreprise à entreprise (B2B), ainsi que des services de consommation locale, de médias numériques et de divertissement, de logistique et d'informatique en nuage. Mais elle vient de dévoiler l'évolution de son grand modèle de langage : Qwen1.5 vers Qwen2.

Alibaba propose des modèles pré-entraînés et adaptés aux instructions de 5 tailles, dont Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, et Qwen2-72B. Qwen2 a été formé sur des données dans 27 langues supplémentaires en plus de l'anglais et du chinois. Cette version offre des performances de pointe dans un grand nombre d'évaluations de référence, ainsi que des performances nettement améliorées en matière de codage et de mathématiques. De plus, Qwen2 prend en charge de la longueur de contexte étendue jusqu'à 128K tokens avec Qwen2-7B-Instruct et Qwen2-72B-Instruct.

Nom : 1.jpg
Affichages : 16767
Taille : 22,9 Ko

Information sur les modèles

La série Qwen2 comprend des modèles de base et des modèles accordés par instruction de 5 tailles, notamment Qwen2-0,5B, Qwen2-1,5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B. Les informations clés des modèles sont illustrées dans le tableau suivant :

Nom : 2.jpg
Affichages : 4932
Taille : 33,9 Ko

Plus précisément, dans Qwen1.5, seuls Qwen1.5-32B et Qwen1.5-110B ont adopté l'attention aux requêtes de groupe (GQA). Cette fois, pour toutes les tailles de modèles, Alibaba applique la GQA afin qu'ils puissent profiter des avantages d'une vitesse plus rapide et d'une utilisation moindre de la mémoire dans l'inférence du modèle. Pour les petits modèles, Alibaba a préféré l'application de l'encastrement lié, car les grands encastrements épars représentent une grande proportion des paramètres totaux du modèle.

En ce qui concerne la longueur du contexte, tous les modèles linguistiques de base ont été entraînés sur des données de longueur de contexte de 32 000 tokens, et ils ont observé des capacités d'extrapolation satisfaisantes jusqu'à 128 000 dans l'évaluation PPL. Cependant, pour les modèles adaptés aux instructions, ils ne se sont pas contenté d'une simple évaluation PPL ; ils voulaient que les modèles soient capables de comprendre correctement un contexte long et d'accomplir des tâches.

Dans le tableau, ils énumèrent les capacités de longueur de contexte des modèles adaptés aux instructions, telles qu'elles ont été évaluées par l'évaluation de la tâche "Aiguille dans une botte de foin". Notamment, lorsqu'ils sont complétés par YARN, les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct font preuve d'une capacité impressionnante à gérer des longueurs de contexte allant jusqu'à 128 000 tokens.

Des efforts considérables ont été déployés pour augmenter le volume et la qualité des ensembles de données de pré-entraînement et de mise au point de l'instruction dans un spectre linguistique diversifié, au-delà de l'anglais et du chinois, afin de renforcer ses compétences multilingues. Bien que les grands modèles de langage possèdent une capacité inhérente à se généraliser à d'autres langues, Alibaba souligne explicitement l'inclusion de 27 langues supplémentaires dans la formation des modèles :

Nom : 3.jpg
Affichages : 4887
Taille : 31,7 Ko

En outre, ils ont consacré des efforts considérables à la prise en compte de l'alternance codique, un phénomène fréquent dans les évaluations multilingues. Par conséquent, la capacité de ses modèles à gérer ce phénomène s'est considérablement améliorée. Les évaluations utilisant des messages-guides qui induisent généralement des changements de code d'une langue à l'autre confirment une réduction substantielle des problèmes associés.

Performances

Les évaluations comparatives révèlent des améliorations substantielles des performances pour les modèles à grande échelle (70B+ paramètres) par rapport à Qwen1.5. L'évaluation présenté par Alibaba est centrée sur le modèle de grande taille Qwen2-72B. En termes de modèles linguistiques de base, Qwen2-72B et les modèles ouverts de pointe sont évalués pour différentes capacités, notamment la compréhension du langage naturel, l'acquisition de connaissances, la maîtrise du codage, les compétences mathématiques et les capacités multilingues.

Bénéficiant d'ensembles de données méticuleusement traités et de méthodes de formation optimisées, Qwen2-72B affiche des performances supérieures à celles des principaux modèles tels que Llama-3-70B. Il surpasse notamment les performances de son prédécesseur, Qwen1.5-110B, bien qu'il ait moins de paramètres.

Nom : 4.jpg
Affichages : 4887
Taille : 56,4 Ko

Après un pré-entraînement à grande échelle, ils ont effectué un post-entraînement afin d'améliorer encore l'intelligence de Qwen et de la rapprocher de celle des humains. Ce processus améliore encore les capacités du modèle dans des domaines tels que le codage, les mathématiques, le raisonnement, le suivi des instructions, la compréhension multilingue, etc. En outre, il aligne les résultats du modèle sur les valeurs humaines, en veillant à ce qu'ils soient utiles, honnêtes et inoffensifs.

La phase de post-entraînement est conçue selon le principe de l'entraînement évolutif avec une annotation humaine minimale. Plus précisément, ils ont étudié comment obtenir des données de démonstration et des données de préférence de haute qualité, fiables, diverses et créatives avec diverses stratégies d'alignement automatisées, telles que l'échantillonnage de rejet pour les mathématiques, le retour d'information sur l'exécution pour le codage et le suivi des instructions, la rétro-traduction pour l'écriture créative, la supervision évolutive pour les jeux de rôle, etc.

En ce qui concerne la formation, ils ont appliqué une combinaison d'ajustement supervisé, de formation de modèle de récompense et de formation DPO en ligne. Ils ont utilisé également un nouvel optimiseur de fusion en ligne pour minimiser la taxe d'alignement. Ces efforts collectifs ont considérablement renforcé les capacités et l'intelligence des modèles, comme l'illustre le tableau suivant.

Nom : 5.jpg
Affichages : 4891
Taille : 53,8 Ko

Ils ont évalué Qwen2-72B-Instruct de manière exhaustive sur 16 critères de référence dans divers domaines. Qwen2-72B-Instruct trouve un équilibre entre l'obtention de meilleures capacités et l'alignement sur les valeurs humaines. Plus précisément, Qwen2-72B-Instruct surpasse largement Qwen1.5-72B-Chat sur tous les points de référence, et atteint également des performances compétitives par rapport à Llama-3-70B-Instruct.

En ce qui concerne les modèles plus petits, les modèles Qwen2 surpassent également les modèles SOTA de taille similaire ou même plus grande. Par rapport aux modèles SOTA très récents, Qwen2-7B-Instruct peut encore faire preuve d'avantages dans tous les points de référence, en montrant en particulier des performances exceptionnelles en matière de codage et de mesures liées au chinois.

Nom : 6.jpg
Affichages : 4866
Taille : 33,5 Ko

Points forts

Codage et mathématiques

Ils ont constamment consacré des efforts à l'amélioration des capacités avancées de Qwen, en particulier dans les domaines du codage et des mathématiques. En ce qui concerne le codage, ils ont réussi à intégrer l'expérience et les données de formation au codage de CodeQwen1.5, ce qui a permis d'améliorer considérablement Qwen2-72B-Instruct dans divers langages de programmation. En ce qui concerne les mathématiques, en exploitant les ensembles de données étendus et de haute qualité, Qwen2-72B-Instruct reflète des capacités plus fortes dans la résolution de problèmes mathématiques.
Compréhension du contexte long

Dans Qwen2, tous les modèles adaptés aux instructions ont été formés sur des contextes de 32k de long, et extrapolés à des contextes plus longs à l'aide de techniques telles que YARN ou Dual Chunk Attention.

La figure ci-dessous montre les résultats des tests sur l'aiguille dans une botte de foin. Notamment, Qwen2-72B-Instruct est capable de gérer parfaitement les tâches d'extraction d'informations dans un contexte de 128k. Associé à ses performances intrinsèques élevées, il devient le choix privilégié pour traiter les tâches de texte long lorsque les ressources sont suffisantes.

En outre, il convient de noter les capacités impressionnantes des autres modèles de la série : Qwen2-7B-Instruct gère presque sans problème des contextes d'une longueur maximale de 128 ko, Qwen2-57B-A14B-Instruct gère des contextes d'une longueur maximale de 64 ko, et les deux plus petits modèles de la gamme prennent en charge des contextes d'une longueur maximale de 32 ko.

Outre les modèles à contexte long, Alibaba a également mis à disposition une solution d'agent pour traiter efficacement les documents contenant jusqu'à 1 million de tokens.
Sécurité et responsabilité

Le tableau ci-dessous présente la proportion de réponses nuisibles générées par les grands modèles pour quatre catégories de questions multilingues non sécurisées (activités illégales, fraude, pornographie, violence dans la vie privée). Les données de test proviennent de Jailbreak et ont été traduites en plusieurs langues pour l'évaluation.

Ils ont constaté que Llama-3 ne gère pas efficacement les invites multilingues, c'est pourquoi elle n'est pas incluse dans la comparaison. Grâce à des tests de signification (valeur P), ils ont constaté que le modèle Qwen2-72B-Instruct présente des performances comparables à celles du modèle GPT-4 en termes de sécurité, et qu'il est nettement plus performant que le modèle Mistral-8x22B.

Licence

Cette fois, Alibaba change les licences de ses modèles. Alors que Qwen2-72B ainsi que ses modèles accordés sur les instructions utilisent toujours la licence Qianwen originale, tous les autres modèles, y compris Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B et Qwen2-57B-A14B, adoptent Apache 2.0 ! Ils pensent que l'ouverture accrue des modèles à la communauté peut accélérer les applications et les utilisations commerciales de Qwen2 dans le monde entier.

Quelles sont les prochaines étapes pour Qwen2 ?

Alibaba annonce former de plus grands modèles Qwen2 afin d'explorer davantage la mise à l'échelle des modèles, parallèlement à sa récente mise à l'échelle des données. En outre, ils étendront les modèles linguistiques de Qwen2 à la multimodalité, capables de comprendre à la fois les informations visuelles et audio. Dans un avenir proche, Alibaba continuera à ouvrir de nouveaux modèles pour accélérer l'IA open source.

Source : Présentation de Qwen2

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Alibaba publie le modèle open source Qwen-72B LLM avec une longueur de contexte de 32k, ainsi que Qwen-Chat, qui surpassent les modèles de taille similaire sur les ensembles de données de référence

Les géants chinois Alibaba et Baidu ont réduit les prix des LLM utilisés pour alimenter leurs chatbots d'IA générative, alors que la guerre des prix dans le secteur du cloud computing s'intensifie en Chine

Les actions d'Alibaba bondissent après que le fondateur Jack Ma ait fait l'éloge des "transformations" du géant chinois, il avait disparu de la vie publique en 2020

**Jade Emy** · 23/08/2024, 00h12

Le nouveau modèle d'IA Qwen2-Math d'Alibaba excelle en mathématiques et surpasse ses concurrents, il a fait preuve de performances supérieures en matière de raisonnement mathématique complexe.

Le modèle Qwen2-Math d'Alibaba démontre des performances supérieures en matière de raisonnement mathématique complexe. Lors des évalutions, Qwen2-Math-72B-Instruct a surpassé les modèles propriétaires tels que GPT-4o et Claude 3.5 dans les tâches liées aux mathématiques. Malgré cela, Alibaba continuera à améliorer la capacité de ses modèles à résoudre des problèmes mathématiques complexes et difficiles.

Alibaba avait présenté Qwen2, son grand modèle de langage open source, avec des capacités améliorées en matière de codage et de mathématiques, ainsi que des performances de pointe. Alibaba affirmait consacrer ses efforts à l'amélioration des capacités avancées de Qwen, en particulier dans les domaines du codage et des mathématiques. Il annonçait également comme objectif d'ouvrir de nouveaux modèles pour accélérer l'IA open source.

Récemment, Alibaba a mis au point un modèle spécialisé pour résoudre des problèmes mathématiques complexes, surpassant les modèles phares d'OpenAI et d'Anthropic. Qwen2-Math est une version spécifique aux mathématiques du modèle Qwen2 récemment publié par Alibaba, qui est capable de résoudre des problèmes arithmétiques et mathématiques.

Le modèle open-source est disponible en trois tailles, de la plus petite avec 1,5 milliard de paramètres à la plus grande avec 72 milliards de paramètres. Les trois modèles obtiennent de bons résultats dans les évaluations axées sur les mathématiques, la version phare de 72 milliards surpassant les modèles propriétaires tels que GPT-4o et Claude 3.5 dans les tâches liées aux mathématiques.

Nom : 0.jpg
Affichages : 5639
Taille : 40,5 Ko

Voici les déclarations d'Alibaba pour cette annonce :

Au cours de l'année écoulée, nous avons consacré des efforts considérables à la recherche et à l'amélioration des capacités de raisonnement des grands modèles de langage, en mettant particulièrement l'accent sur leur capacité à résoudre des problèmes arithmétiques et mathématiques. Aujourd'hui, nous sommes ravis de présenter une série de grands modèles de langage spécifiques aux mathématiques de notre série Qwen2, Qwen2-Math et Qwen2-Math-Instruct-1.5B/7B/72B.

Qwen2-Math est une série de modèles de langage spécialisés en mathématiques construits sur les LLM de Qwen2, qui surpassent de manière significative les capacités mathématiques des modèles à source ouverte et même des modèles à source fermée (par exemple, GPT-4o). Nous espérons que Qwen2-Math pourra contribuer à la communauté pour la résolution de problèmes mathématiques complexes.

Nous évaluons nos modèles spécifiques aux mathématiques sur une série de critères mathématiques. Les résultats montrent que notre plus grand modèle spécifique aux mathématiques, Qwen2-Math-72B-Instruct, surpasse les modèles de pointe, notamment GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro et Llama-3.1-405B.

Nom : 1.jpg
Affichages : 945
Taille : 31,2 Ko

Qwen2-Math : Modèles de base

Les modèles de base de Qwen2-Math sont initialisés avec Qwen2-1.5B/7B/72B, puis pré-entraînés sur un corpus spécifique aux mathématiques. Ce corpus contient des textes web mathématiques, des livres, des codes, des questions d'examen et des données de pré-entraînement mathématiques synthétisées par Qwen2.

Qwen2-Math a été évalué sur trois benchmarks mathématiques anglais largement utilisés : GSM8K, Math et MMLU-STEM. Il a été également évalué sur trois benchmarks mathématiques chinois CMATH, GaoKao Math Cloze et GaoKao Math QA. Toutes les évaluations sont testées à l'aide d'une incitation à la réflexion en chaîne à quelques reprises.

Nom : 2.jpg
Affichages : 947
Taille : 69,1 Ko

Qwen2-Math-Instruct : Modèles adaptés à l'enseignement

Alibaba a d'abord formé un modèle de récompense spécifique aux mathématiques basé sur Qwen2-Math-72B. Ensuite, ils ont combiné ce signal de récompense dense avec un signal binaire indiquant si le modèle a répondu correctement. Ce signal combiné est utilisé comme supervision pour construire les données SFT par le biais de l'échantillonnage de rejet et également dans l'apprentissage par renforcement avec l'optimisation de politique relative de groupe (GRPO) après le SFT.

Qwen2-Math-Instruct a été évalué sur des benchmarks mathématiques en anglais et en chinois. En plus des repères largement utilisés, tels que GSM8K et Math, il y existe également d'autres examens qui sont beaucoup plus difficiles pour inspecter pleinement les capacités de Qwen2-Math-Instruct, tels que OlympiadBench, CollegeMath, GaoKao, AIME2024, et AMC2023. Les benchmarks mathématiques chinois utilisés sont CMATH, Gaokao (examen d'entrée à l'université chinoise 2024) et CN Middle School 24 (examen d'entrée à l'école secondaire chinoise 2024).

Alibaba présente également les performances de greedy, Maj@8 et RM@8 pour tous les benchmarks dans le cadre de zéro coup, sauf pour les benchmarks à choix multiples (y compris MMLU STEM et les problèmes à choix multiples dans GaoKao et CN Middle School 24) avec un cadre de 5 coups. Qwen2-Math-Instruct obtient les meilleures performances parmi les modèles de même taille, RM@8 surpassant Maj@8, en particulier dans les modèles 1,5B et 7B. Cela démontre l'efficacité du modèle de récompense mathématique.

Nom : 3.jpg
Affichages : 942
Taille : 118,9 Ko

Dans les évaluations de concours mathématiques plus complexes telles que AIME 2024 et AMC 2023, Qwen2-Math-Instruct obtient également de bons résultats dans divers contextes, notamment Greedy, Maj@64, RM@64 et RM@256.

Nom : 4.jpg
Affichages : 930
Taille : 46,8 Ko

Alibaba commente ces résultats en déclarant :

Cette fois-ci, nous lançons une nouvelle série de modèles axés sur les capacités mathématiques, Qwen2-Math, construits sur la base de Qwen2. Notre modèle phare, Qwen2-Math-72B-Instruct, surpasse les modèles propriétaires tels que GPT-4o et Claude 3.5 dans les tâches liées aux mathématiques. Étant donné les limites actuelles de la prise en charge de l'Anglais uniquement, nous prévoyons de publier prochainement des modèles bilingues prenant en charge à la fois l'anglais et le chinois, le développement de modèles multilingues étant également en cours de préparation. En outre, nous continuerons à améliorer la capacité de nos modèles à résoudre des problèmes mathématiques complexes et difficiles.