Des chercheurs de Microsoft développent un modèle d'IA hyper-efficace qui peut fonctionner sur les CPU, BitNet b1.58 2B4T, le plus grand modèle d'IA à 1 bit à ce jour avec 2 milliards de paramètres
Des chercheurs de Microsoft affirment avoir mis au point le plus grand modèle d'IA à 1 bit, également connu sous le nom de « bitnet », à ce jour. Baptisé BitNet b1.58 2B4T, il est disponible sous licence MIT et peut fonctionner sur des CPU, y compris le M2 d'Apple. Les bitnets sont essentiellement des modèles compressés conçus pour fonctionner sur du matériel léger.
L'intelligence artificielle (IA) désigne la capacité des systèmes informatiques à effectuer des tâches typiquement associées à l'intelligence humaine, telles que l'apprentissage, le raisonnement, la résolution de problèmes, la perception et la prise de décision. À la fin des années 2010, les unités de traitement graphique (GPU), de plus en plus conçues avec des améliorations spécifiques à l'IA et utilisées avec le logiciel spécialisé TensorFlow, ont remplacé les unités centrales de traitement (CPU) précédemment utilisées comme moyen dominant pour la formation des modèles d'apprentissage automatique à grande échelle.
Récemment, des chercheurs de Microsoft viennent d'annoncer un nouveau modèle d'IA révolutionnaire qui n'est pas seulement puissant, mais aussi incroyablement efficace. Baptisé BitNet b1.58 2B4T, ce modèle est conçu pour fonctionner sans problème sur les processeurs CPU, même ceux de vos appareils de tous les jours, comme les puces M2 d'Apple. Qu'est-ce que cela signifie pour l'avenir de l'IA ?
BitNet b1.58 2B4T : Le modèle d'IA hyper-efficace de Microsoft
Microsoft fait des vagues avec sa dernière création, BitNet b1.58 2B4T. Mais qu'est-ce qu'un « bitnet » exactement, et pourquoi devriez-vous vous y intéresser ? Les bitnets sont les athlètes rationalisés du monde de l'IA. Ils sont conçus pour offrir des performances maximales avec un minimum de ressources. Les bitnets sont essentiellement des modèles d'IA compressés. Cette compression est essentielle car elle leur permet de fonctionner sur du matériel qui n'est pas nécessairement haut de gamme, comme les unités centrales de traitement (CPU).
BitNet b1.58 2B4T utilise la quantification pour plus d'efficacité. Les modèles d'IA traditionnels utilisent souvent des « poids » complexes, c'est-à-dire les paramètres internes qui guident l'apprentissage du modèle. Pour rendre ces modèles plus polyvalents, ces poids sont souvent « quantifiés ». La quantification réduit le nombre de bits nécessaires pour représenter ces poids, ce qui allège le modèle et le rend plus rapide. BitNet pousse la quantification à l'extrême. Au lieu d'utiliser la gamme typique de valeurs pour les poids, il les comprime à seulement trois : -1, 0 et 1. Cette simplification radicale est ce qui rend les modèles BitNet incroyablement efficaces en termes de mémoire et de calcul.
Le BitNet b1.58 2B4T de Microsoft n'est pas un bitnet comme les autres ; c'est le plus grand à ce jour, avec 2 milliards de paramètres. Dans ce contexte, les paramètres sont essentiellement les mêmes que les « poids ». Ce modèle, entraîné sur un ensemble massif de données de 4 000 milliards de jetons (33 millions de livres !), démontre que même à grande échelle, l'approche efficace des modèles d'IA de BitNet reste solide.
Selon les chercheurs de Microsoft, BitNet b1.58 2B4T ne se contente pas de se maintenir, il surpasse les modèles d'IA traditionnels de taille similaire. Il surpasse des modèles comme Llama 3.2 1B de Meta, Gemma 3 1B de Google et Qwen 2.5 1.5B d'Alibaba sur des points de référence clés. La vitesse est peut-être l'aspect le plus impressionnant. BitNet b1.58 2B4T serait deux fois plus rapide que d'autres modèles de sa taille dans certains tests, tout en utilisant beaucoup moins de mémoire. Cela change la donne pour le déploiement de l'IA dans des environnements à ressources limitées.
Imaginez les implications d'un tel modèle ! Dans le domaine de la cryptomonnaie, une IA plus rapide et plus légère pourrait alimenter des applications décentralisées plus réactives et plus accessibles, améliorer l'analyse de la blockchain et même renforcer les protocoles de sécurité sans nécessiter d'énormes fermes de serveurs. Cela ouvre des possibilités d'intégration de fonctionnalités d'IA sophistiquées directement dans les portefeuilles, les échanges décentralisés et d'autres plateformes, sans qu'il soit nécessaire de mettre en place une infrastructure lourde. En outre, un traitement plus rapide des transactions, à des contrats intelligents plus intelligents et à des expériences utilisateur améliorées, le tout alimenté par une IA légère.
L'avantage du CPU : Démocratiser le traitement de l'IA
La capacité de BitNet b1.58 2B4T à fonctionner sur des CPU est un élément central de son attrait et un changement de paradigme potentiel. Pourquoi est-il si important de fonctionner sur les CPU ?
- Accessibilité et rentabilité : Les CPU sont omniprésentes. Ils sont présents dans nos ordinateurs portables, nos ordinateurs de bureau et même nos smartphones. Contrairement aux unités de traitement graphique (GPU), qui sont souvent spécialisées et coûteuses, les CPU sont facilement disponibles et plus abordables. Cela réduit considérablement la barrière à l'entrée pour l'exécution de modèles d'IA avancés.
- Des possibilités de déploiement plus larges : Les CPU étant très répandues, les modèles BitNet peuvent être déployés sur une gamme beaucoup plus large d'appareils. Ceci est crucial pour les applications qui doivent être accessibles à une large base d'utilisateurs qui n'ont pas forcément accès à du matériel haut de gamme.
- Efficacité énergétique : Les CPU sont généralement plus économes en énergie que les GPU pour certains types de tâches, en particulier lorsqu'il s'agit de modèles comme BitNet qui sont conçus pour l'efficacité. Cela correspond à l'importance croissante accordée à la durabilité dans les domaines de l'IA.
Imaginez un avenir où l'exécution d'algorithmes d'IA complexes est aussi courante que l'exécution de n'importe quel autre logiciel sur votre ordinateur. BitNet sur les CPU nous rapproche de cette réalité, en rendant l'IA sophistiquée plus accessible à tous, et pas seulement à ceux qui ont accès à de puissantes grappes de GPU.
Cependant, bien que BitNet b1.58 2B4T soit une avancée significative, il y a des défis à prendre en compte. Bien que BitNet soit efficace et rapide, il est important de se rappeler qu'il ne « balaie pas le sol » de tous les modèles rivaux en termes de performances brutes. Il tient son rang et excelle en termes d'efficacité, mais dans les scénarios où la performance absolue est primordiale et où les ressources sont abondantes, d'autres modèles peuvent encore être préférés.
Pour atteindre des performances maximales, BitNet b1.58 2B4T nécessite actuellement le cadre personnalisé de Microsoft, bitnet.cpp. Ce cadre a des limites matérielles et, notamment, ne prend pas encore en charge les GPU, qui sont la force dominante dans l'infrastructure de l'IA. En outre, la dépendance à l'égard d'un cadre spécifique et la compatibilité matérielle limitée constituent un défi pour l'adoption généralisée. Pour que BitNet prenne véritablement son envol, une prise en charge plus large du matériel et des cadres potentiellement plus polyvalents sont nécessaires.
Malgré ces difficultés, la promesse de l'accessibilité de l'IA grâce à des modèles tels que BitNet est indéniable. L'avenir nous réserve probablement d'autres développements de la technologie BitNet, notamment un support matériel élargi, le développement de cadres ainsi que l'optimisation et mise à l'échelle. Les efforts visant à élargir la compatibilité pour inclure les GPU et une plus large gamme de CPU sont cruciaux. La création de cadres plus ouverts et polyvalents qui prennent en charge les bitnets pourrait accélérer l'adoption et l'innovation. La poursuite de la recherche sur l'optimisation des architectures bitnet et leur mise à l'échelle pour des modèles encore plus grands et plus complexes sera essentielle pour libérer tout leur potentiel.
bitnet.cpp : Essayez sur votre propre CPU
bitnet.cpp est le cadre d'inférence officiel pour les LLMs 1-bit (par exemple, BitNet b1.58). Il offre une suite de noyaux optimisés, qui permettent une inférence rapide et sans perte des modèles 1.58-bit sur le CPU (avec un support NPU et GPU à venir).
La première version de bitnet.cpp est destinée à prendre en charge l'inférence sur les CPU. bitnet.cpp permet d'obtenir des gains de vitesse de 1,37x à 5,07x sur les CPU ARM, les modèles les plus importants bénéficiant de gains de performance plus importants. En outre, il réduit la consommation d'énergie de 55,4 % à 70,0 %, ce qui améliore encore l'efficacité globale.
Sur les processeurs x86, les gains de vitesse vont de 2,37x à 6,17x avec des réductions d'énergie allant de 71,9 % à 82,2 %. En outre, bitnet.cpp peut exécuter un modèle BitNet b1.58 de 100B sur un seul CPU, atteignant des vitesses comparables à la lecture humaine (5-7 jetons par seconde), améliorant de manière significative le potentiel d'exécution des LLM sur des dispositifs locaux.
Conclusion
Le BitNet b1.58 2B4T de Microsoft est plus qu'une simple réalisation technique ; c'est un aperçu d'un avenir où l'IA est plus démocratisée, plus accessible et plus efficace. En prouvant que des modèles d'IA à grande échelle peuvent fonctionner efficacement sur des CPU, BitNet remet en cause l'idée reçue selon laquelle une IA puissante nécessite des ressources informatiques massives. Alors que l'IA continue d'évoluer, des innovations comme BitNet contribueront à façonner un avenir où l'IA ne sera pas seulement puissante, mais aussi durable et à la portée de tous.
Source : Demo BitNet b1.58
Et vous ?
Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
La stratégie de Microsoft en matière d'IA : laisser OpenAI brûler son argent pour créer des modèles pionniers, puis s'appuyer sur ses succès pour améliorer les capacités de Copilot avec 3 à 6 mois de retard
"Chat With RTX" de NVIDIA, un chatbot IA qui fonctionne localement sur votre PC contrairement à ChatGPT. S'il contribue ainsi à la protection de la vie privée, le chatbot présente déjà des limites
L'essor de l'IA donne naissance au « GPU-as-a-Service », une solution face à la pénurie de puissance mais non sans limites, avec des risques de dépendance aux géants du cloud
Partager