Mistral AI et NVIDIA dévoilent Mistral NeMo 12B, un modèle d'IA d'entreprise que les développeurs peuvent personnaliser et déployer pour des applications prenant en charge les chatbots et autres tâches.
Mistral AI et NVIDIA dévoilent Mistral NeMo 12B, un modèle 12B de pointe avec une longueur de contexte de 128k, et publié sous la licence Apache 2.0. La capacité de Mistral NeMo à traiter et à générer un contenu précis ouvre de nouvelles perspectives aux entreprises.
Fondée en avril 2023, Mistral AI est une entreprise française spécialisée dans les produits d'intelligence artificielle (IA). L'entreprise se concentre sur la production de grands modèles de langage open source, soulignant l'importance fondatrice des logiciels libres et open source, et se positionnant comme une alternative aux modèles propriétaires. Elle vise à "démocratiser" l'IA en se concentrant sur l'innovation à code source ouvert.
Mistral AI et NVIDIA viennent de présenter un nouveau modèle de langage de pointe, Mistral NeMo 12B, que les développeurs peuvent facilement personnaliser et déployer pour les applications d'entreprise prenant en charge les chatbots, les tâches multilingues, le codage et le résumé. En associant l'expertise de Mistral AI en matière de données de formation à l'écosystème matériel et logiciel optimisé de NVIDIA, le modèle Mistral NeMo offre des performances élevées pour diverses applications.
« Nous avons la chance de collaborer avec l'équipe de NVIDIA, en tirant parti de leur matériel et de leurs logiciels de premier plan », a déclaré Guillaume Lample, cofondateur et chief scientist de Mistral AI. « Ensemble, nous avons développé un modèle d'une précision, d'une flexibilité et d'une efficacité sans précédent, ainsi qu'un support et une sécurité de niveau entreprise grâce au déploiement de NVIDIA AI Enterprise ».
Mistral NeMo a été entraîné sur la plateforme NVIDIA DGX Cloud AI, qui offre un accès dédié et évolutif à la dernière architecture de NVIDIA. NVIDIA TensorRT-LLM pour accélérer les performances d'inférence sur les grands modèles de langage et la plateforme de développement NVIDIA NeMo pour construire des modèles d'IA générative personnalisés ont également été utilisés pour faire avancer et optimiser le processus. Cette collaboration souligne l'engagement de NVIDIA à soutenir l'écosystème des créateurs de modèles.
Mistral NeMo 12B : Une précision, une flexibilité et une efficacité
Excellant dans les conversations à plusieurs tours, les mathématiques, le raisonnement de bon sens, la connaissance du monde et le codage, ce modèle d'IA d'entreprise offre des performances précises et fiables dans diverses tâches. Avec une longueur de contexte de 128K, Mistral NeMo traite des informations étendues et complexes de manière plus cohérente et plus précise, garantissant ainsi des résultats pertinents sur le plan contextuel.
Publié sous la licence Apache 2.0, qui encourage l'innovation et soutient la communauté de l'IA au sens large, Mistral NeMo est un modèle à 12 milliards de paramètres. En outre, le modèle utilise le format de données FP8 pour l'inférence du modèle, ce qui réduit la taille de la mémoire et accélère le déploiement sans aucune dégradation de la précision. Cela signifie que le modèle apprend mieux les tâches et gère plus efficacement divers scénarios, ce qui le rend idéal pour les cas d'utilisation en entreprise.
Mistral NeMo est livré sous la forme d'un microservice d'inférence NVIDIA NIM, offrant une inférence optimisée en termes de performances avec les moteurs NVIDIA TensorRT-LLM. Ce format conteneurisé permet un déploiement facile n'importe où, offrant une flexibilité accrue pour diverses applications. Ainsi, les modèles peuvent être déployés n'importe où en quelques minutes, au lieu de plusieurs jours.
NIM dispose d'un logiciel d'entreprise qui fait partie de NVIDIA AI Enterprise, avec des branches de fonctionnalités dédiées, des processus de validation rigoureux, ainsi qu'une sécurité et un support de niveau entreprise. Il comprend un support complet, un accès direct à un expert en IA de NVIDIA et des accords de niveau de service définis, ce qui permet d'obtenir des performances fiables et constantes. La licence de modèle ouvert permet aux entreprises d'intégrer Mistral NeMo dans des applications commerciales de manière transparente.
Conçu pour s'adapter à la mémoire d'un seul GPU NVIDIA L40S, NVIDIA GeForce RTX 4090 ou NVIDIA RTX 4500, le Mistral NeMo NIM offre une grande efficacité, un faible coût de calcul, ainsi qu'une sécurité et une confidentialité accrues.
Développement et performances
L'expertise combinée des ingénieurs de Mistral AI et de NVIDIA a permis d'optimiser l'entraînement et l'inférence pour le Mistral NeMo. Formé grâce à l'expertise de Mistral AI, notamment en matière de multilinguisme, de code et de contenu multi-tours, le modèle bénéficie d'une formation accélérée sur l'ensemble de la pile de NVIDIA.
Il est conçu pour des performances optimales, utilisant des techniques efficaces de parallélisme de modèles, l'extensibilité et la précision mixte avec Megatron-LM. Le modèle a été entraîné à l'aide de Megatron-LM, qui fait partie de NVIDIA NeMo, avec 3 072 GPU H100 80GB Tensor Core sur DGX Cloud, composé de l'architecture NVIDIA AI, y compris le calcul accéléré, la structure réseau et le logiciel pour augmenter l'efficacité de l'entraînement.
Le tableau suivant compare la précision du modèle de base de Mistral NeMo avec deux modèles pré-entraînés open-source récents, Gemma 2 9B, et Llama 3 8B.
Le modèle est conçu pour des applications globales et multilingues. Il est entraîné sur l'appel de fonctions, dispose d'une large fenêtre contextuelle et est particulièrement performant en anglais, français, allemand, espagnol, italien, portugais, chinois, japonais, coréen, arabe et hindi. Il s'agit d'une nouvelle étape vers la mise à disposition de modèles d'IA d'avant-garde dans les mains de chacun, dans toutes les langues qui forment la culture humaine.
Mistral NeMo utilise un nouveau tokenizer, Tekken, basé sur Tiktoken, qui a été entraîné sur plus de 100 langues et qui compresse les textes en langue naturelle et le code source plus efficacement que le tokenizer SentencePiece utilisé dans les modèles Mistral précédents. En particulier, il est ~30% plus efficace pour compresser le code source, le chinois, l'italien, le français, l'allemand, l'espagnol et le russe. Il est également 2 fois et 3 fois plus efficace pour compresser le coréen et l'arabe, respectivement. Comparé au tokenizer Llama 3, Tekken s'est avéré plus efficace dans la compression de texte pour environ 85 % de toutes les langues.
Mistral NeMO a fait l'objet d'une phase avancée de réglage fin et d'alignement. Par rapport à Mistral 7B, il est beaucoup plus performant pour suivre des instructions précises, raisonner, gérer des conversations à plusieurs tours et générer du code.
Disponibilité et déploiement
Avec la flexibilité de fonctionner partout - cloud, centre de données ou station de travail RTX - Mistral NeMo est prêt à révolutionner les applications d'IA sur diverses plateformes. Découvrez Mistral NeMo en tant que NIM NVIDIA via ai.nvidia.com, et un NIM téléchargeable sera bientôt disponible.
Les poids sont hébergés sur HuggingFace à la fois pour la base et pour les modèles d'instruction. Vous pouvez essayer Mistral NeMo avec mistral-inference et l'adapter avec mistral-finetune. Mistral NeMo est exposé sur la Plateforme sous le nom open-mistral-nemo-2407.
Source : Mistral AI
Et vous ?
Avez-vous utilisé cet outil ou un outil similaire pour votre usage ou le développement d'applications, et si oui qu'en pensez-vous ?
Quel est votre avis sur la collaboration entre NVIDIA et Mistral AI ?
Voir aussi :
Mistral publie Codestral Mamba, un modèle de langage Mamba2 avec 7 milliards de paramètres spécialisé dans la génération de code, disponible sous licence Apache 2.0
Jensen Huang, PDG de NVIDIA, annonce une révolution industrielle : réduction des coûts, durabilité, nouveaux semi-conducteurs, logiciels et systèmes pour alimenter les centres de données, les robots, etc
Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité
Partager