Qwen2 : le LLM open source d'Alibaba évolue avec des capacités améliorées et des prouesses multilingues, et serait désormais le meilleur LLM Opensource devant Llama-3, GPT-4O, et Claude
Alibaba présente Qwen2, son grand modèle de langage open source. Elle offre des capacités améliorées en matière de codage et de mathématiques, ainsi que des performances de pointe.
Un grand modèle de langage (LLM) est un modèle informatique qui se distingue par sa capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles que la classification. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé à forte intensité de calcul.
Fondée en 1999, la société Alibaba est principalement connu pour ses services de vente de consommateur à consommateur (C2C), d'entreprise à consommateur (B2C) et d'entreprise à entreprise (B2B), ainsi que des services de consommation locale, de médias numériques et de divertissement, de logistique et d'informatique en nuage. Mais elle vient de dévoiler l'évolution de son grand modèle de langage : Qwen1.5 vers Qwen2.
Alibaba propose des modèles pré-entraînés et adaptés aux instructions de 5 tailles, dont Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, et Qwen2-72B. Qwen2 a été formé sur des données dans 27 langues supplémentaires en plus de l'anglais et du chinois. Cette version offre des performances de pointe dans un grand nombre d'évaluations de référence, ainsi que des performances nettement améliorées en matière de codage et de mathématiques. De plus, Qwen2 prend en charge de la longueur de contexte étendue jusqu'à 128K tokens avec Qwen2-7B-Instruct et Qwen2-72B-Instruct.
Information sur les modèles
La série Qwen2 comprend des modèles de base et des modèles accordés par instruction de 5 tailles, notamment Qwen2-0,5B, Qwen2-1,5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B. Les informations clés des modèles sont illustrées dans le tableau suivant :
Plus précisément, dans Qwen1.5, seuls Qwen1.5-32B et Qwen1.5-110B ont adopté l'attention aux requêtes de groupe (GQA). Cette fois, pour toutes les tailles de modèles, Alibaba applique la GQA afin qu'ils puissent profiter des avantages d'une vitesse plus rapide et d'une utilisation moindre de la mémoire dans l'inférence du modèle. Pour les petits modèles, Alibaba a préféré l'application de l'encastrement lié, car les grands encastrements épars représentent une grande proportion des paramètres totaux du modèle.
En ce qui concerne la longueur du contexte, tous les modèles linguistiques de base ont été entraînés sur des données de longueur de contexte de 32 000 tokens, et ils ont observé des capacités d'extrapolation satisfaisantes jusqu'à 128 000 dans l'évaluation PPL. Cependant, pour les modèles adaptés aux instructions, ils ne se sont pas contenté d'une simple évaluation PPL ; ils voulaient que les modèles soient capables de comprendre correctement un contexte long et d'accomplir des tâches.
Dans le tableau, ils énumèrent les capacités de longueur de contexte des modèles adaptés aux instructions, telles qu'elles ont été évaluées par l'évaluation de la tâche "Aiguille dans une botte de foin". Notamment, lorsqu'ils sont complétés par YARN, les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct font preuve d'une capacité impressionnante à gérer des longueurs de contexte allant jusqu'à 128 000 tokens.
Des efforts considérables ont été déployés pour augmenter le volume et la qualité des ensembles de données de pré-entraînement et de mise au point de l'instruction dans un spectre linguistique diversifié, au-delà de l'anglais et du chinois, afin de renforcer ses compétences multilingues. Bien que les grands modèles de langage possèdent une capacité inhérente à se généraliser à d'autres langues, Alibaba souligne explicitement l'inclusion de 27 langues supplémentaires dans la formation des modèles :
En outre, ils ont consacré des efforts considérables à la prise en compte de l'alternance codique, un phénomène fréquent dans les évaluations multilingues. Par conséquent, la capacité de ses modèles à gérer ce phénomène s'est considérablement améliorée. Les évaluations utilisant des messages-guides qui induisent généralement des changements de code d'une langue à l'autre confirment une réduction substantielle des problèmes associés.
Performances
Les évaluations comparatives révèlent des améliorations substantielles des performances pour les modèles à grande échelle (70B+ paramètres) par rapport à Qwen1.5. L'évaluation présenté par Alibaba est centrée sur le modèle de grande taille Qwen2-72B. En termes de modèles linguistiques de base, Qwen2-72B et les modèles ouverts de pointe sont évalués pour différentes capacités, notamment la compréhension du langage naturel, l'acquisition de connaissances, la maîtrise du codage, les compétences mathématiques et les capacités multilingues.
Bénéficiant d'ensembles de données méticuleusement traités et de méthodes de formation optimisées, Qwen2-72B affiche des performances supérieures à celles des principaux modèles tels que Llama-3-70B. Il surpasse notamment les performances de son prédécesseur, Qwen1.5-110B, bien qu'il ait moins de paramètres.
Après un pré-entraînement à grande échelle, ils ont effectué un post-entraînement afin d'améliorer encore l'intelligence de Qwen et de la rapprocher de celle des humains. Ce processus améliore encore les capacités du modèle dans des domaines tels que le codage, les mathématiques, le raisonnement, le suivi des instructions, la compréhension multilingue, etc. En outre, il aligne les résultats du modèle sur les valeurs humaines, en veillant à ce qu'ils soient utiles, honnêtes et inoffensifs.
La phase de post-entraînement est conçue selon le principe de l'entraînement évolutif avec une annotation humaine minimale. Plus précisément, ils ont étudié comment obtenir des données de démonstration et des données de préférence de haute qualité, fiables, diverses et créatives avec diverses stratégies d'alignement automatisées, telles que l'échantillonnage de rejet pour les mathématiques, le retour d'information sur l'exécution pour le codage et le suivi des instructions, la rétro-traduction pour l'écriture créative, la supervision évolutive pour les jeux de rôle, etc.
En ce qui concerne la formation, ils ont appliqué une combinaison d'ajustement supervisé, de formation de modèle de récompense et de formation DPO en ligne. Ils ont utilisé également un nouvel optimiseur de fusion en ligne pour minimiser la taxe d'alignement. Ces efforts collectifs ont considérablement renforcé les capacités et l'intelligence des modèles, comme l'illustre le tableau suivant.
Ils ont évalué Qwen2-72B-Instruct de manière exhaustive sur 16 critères de référence dans divers domaines. Qwen2-72B-Instruct trouve un équilibre entre l'obtention de meilleures capacités et l'alignement sur les valeurs humaines. Plus précisément, Qwen2-72B-Instruct surpasse largement Qwen1.5-72B-Chat sur tous les points de référence, et atteint également des performances compétitives par rapport à Llama-3-70B-Instruct.
En ce qui concerne les modèles plus petits, les modèles Qwen2 surpassent également les modèles SOTA de taille similaire ou même plus grande. Par rapport aux modèles SOTA très récents, Qwen2-7B-Instruct peut encore faire preuve d'avantages dans tous les points de référence, en montrant en particulier des performances exceptionnelles en matière de codage et de mesures liées au chinois.
Points forts
- Codage et mathématiques
Ils ont constamment consacré des efforts à l'amélioration des capacités avancées de Qwen, en particulier dans les domaines du codage et des mathématiques. En ce qui concerne le codage, ils ont réussi à intégrer l'expérience et les données de formation au codage de CodeQwen1.5, ce qui a permis d'améliorer considérablement Qwen2-72B-Instruct dans divers langages de programmation. En ce qui concerne les mathématiques, en exploitant les ensembles de données étendus et de haute qualité, Qwen2-72B-Instruct reflète des capacités plus fortes dans la résolution de problèmes mathématiques.
- Compréhension du contexte long
Dans Qwen2, tous les modèles adaptés aux instructions ont été formés sur des contextes de 32k de long, et extrapolés à des contextes plus longs à l'aide de techniques telles que YARN ou Dual Chunk Attention.
La figure ci-dessous montre les résultats des tests sur l'aiguille dans une botte de foin. Notamment, Qwen2-72B-Instruct est capable de gérer parfaitement les tâches d'extraction d'informations dans un contexte de 128k. Associé à ses performances intrinsèques élevées, il devient le choix privilégié pour traiter les tâches de texte long lorsque les ressources sont suffisantes.
En outre, il convient de noter les capacités impressionnantes des autres modèles de la série : Qwen2-7B-Instruct gère presque sans problème des contextes d'une longueur maximale de 128 ko, Qwen2-57B-A14B-Instruct gère des contextes d'une longueur maximale de 64 ko, et les deux plus petits modèles de la gamme prennent en charge des contextes d'une longueur maximale de 32 ko.
Outre les modèles à contexte long, Alibaba a également mis à disposition une solution d'agent pour traiter efficacement les documents contenant jusqu'à 1 million de tokens.
- Sécurité et responsabilité
Le tableau ci-dessous présente la proportion de réponses nuisibles générées par les grands modèles pour quatre catégories de questions multilingues non sécurisées (activités illégales, fraude, pornographie, violence dans la vie privée). Les données de test proviennent de Jailbreak et ont été traduites en plusieurs langues pour l'évaluation.
Ils ont constaté que Llama-3 ne gère pas efficacement les invites multilingues, c'est pourquoi elle n'est pas incluse dans la comparaison. Grâce à des tests de signification (valeur P), ils ont constaté que le modèle Qwen2-72B-Instruct présente des performances comparables à celles du modèle GPT-4 en termes de sécurité, et qu'il est nettement plus performant que le modèle Mistral-8x22B.
Licence
Cette fois, Alibaba change les licences de ses modèles. Alors que Qwen2-72B ainsi que ses modèles accordés sur les instructions utilisent toujours la licence Qianwen originale, tous les autres modèles, y compris Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B et Qwen2-57B-A14B, adoptent Apache 2.0 ! Ils pensent que l'ouverture accrue des modèles à la communauté peut accélérer les applications et les utilisations commerciales de Qwen2 dans le monde entier.
Quelles sont les prochaines étapes pour Qwen2 ?
Alibaba annonce former de plus grands modèles Qwen2 afin d'explorer davantage la mise à l'échelle des modèles, parallèlement à sa récente mise à l'échelle des données. En outre, ils étendront les modèles linguistiques de Qwen2 à la multimodalité, capables de comprendre à la fois les informations visuelles et audio. Dans un avenir proche, Alibaba continuera à ouvrir de nouveaux modèles pour accélérer l'IA open source.
Source : Présentation de Qwen2
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
Alibaba publie le modèle open source Qwen-72B LLM avec une longueur de contexte de 32k, ainsi que Qwen-Chat, qui surpassent les modèles de taille similaire sur les ensembles de données de référence
Les géants chinois Alibaba et Baidu ont réduit les prix des LLM utilisés pour alimenter leurs chatbots d'IA générative, alors que la guerre des prix dans le secteur du cloud computing s'intensifie en Chine
Les actions d'Alibaba bondissent après que le fondateur Jack Ma ait fait l'éloge des "transformations" du géant chinois, il avait disparu de la vie publique en 2020
Partager