Les principaux systèmes d'IA résolvent moins de 2 % des problèmes d'un nouveau test de référence en mathématiques avancées, ce qui révèle les limites importantes de leurs capacités de raisonnement
Un nouveau test de référence révèle à quel point l'IA d'aujourd'hui est médiocre en matière de raisonnement nécessaire à la résolution des problèmes de mathématiques avancées. Ce benchmark, appelé FrontierMath, a fait plancher les systèmes d'IA les plus avancés sur « des centaines de problèmes mathématiques originaux » élaborés par des experts. Le rapport de l'étude indique que le taux de réussite des systèmes d'IA les plus avancés est inférieur à 2 %, ce qui révèle les limites importantes de leurs capacités de raisonnement. Cela suggère que l'IA est encore loin de pouvoir remplacer les humains dans les tâches nécessitant un niveau élevé de raisonnement.
Les capacités de raisonnement des IA actuelles sont encore loin d'être suffisantes
FrontierMath est un benchmark de centaines de problèmes mathématiques originaux et exceptionnellement difficiles, conçus et vérifiés par des mathématiciens experts. Les questions couvrent la plupart des branches majeures des « mathématiques modernes ». Selon ses créateurs, FrontierMath comprend des problèmes à forte intensité de calcul en théorie des nombres et en analyse réelle aux questions abstraites en géométrie algébrique et en théorie des catégories.
La résolution d'un problème typique nécessite plusieurs heures d'efforts de la part d'un chercheur dans la branche mathématique concernée, et pour les questions les plus complexes, plusieurs jours. FrontierMath utilise de nouveaux problèmes inédits et une vérification automatisée pour évaluer les modèles de manière fiable tout en minimisant le risque de contamination des données. FrontierMath a été mis au point par un groupe d'experts de la startup d'IA Epoch AI.
Les résultats médiocres obtenus par les modèles les plus avancés au monde révèlent qu'ils souffrent de profondes lacunes. Malgré la puissance croissante des grands modèles de langage (LLM) tels que GPT-4o et Gemini 1.5 Pro, ces systèmes résolvent moins de 2 % des problèmes de FrontierMath.
La particularité de FrontierMath est que la résolution de ces problèmes mathématiques nécessite « des chaînes étendues de raisonnement précis, chaque étape s'appuyant exactement sur la précédente ». Traditionnellement, les modèles d'IA ne sont pas « très performants » en matière de raisonnement étendu en général, et encore moins en ce qui concerne les mathématiques très avancées. C'est logique si l'on considère ce que font les modèles d'IA, au fond.Envoyé par Epoch AI
1/10 Today we're launching FrontierMath, a benchmark for evaluating advanced mathematical reasoning in AI. We collaborated with 60+ leading mathematicians to create hundreds of original, exceptionally challenging math problems, of which current AI systems solve less than 2%. pic.twitter.com/sNVEB6SvyJ
— Epoch AI (@EpochAIResearch) November 8, 2024
Après avoir examiné les problèmes de FrontierMath, Terence Tao, lauréat de la médaille Fields, a déclaré à Epoch AI : « ces problèmes sont extrêmement difficiles à résoudre. Je pense qu'à court terme, la seule façon de les résoudre, à moins d'avoir un véritable expert dans le domaine, est de faire appel à un semi-expert, comme un étudiant diplômé dans un domaine connexe, peut-être associé à une IA moderne et à de nombreux autres progiciels d'algèbre ».
Les modèles d'IA actuels sont considérés comme de piètres apprenants généralistes
Si l'on prend l'exemple des LLM, ils sont entraînés à partir de tonnes de données pour déterminer ce que chaque mot suivant est le plus susceptible d'être sur la base de ces données. Bien qu'il soit évidemment possible d'orienter le modèle vers des mots différents, le processus est essentiellement probabiliste. Des modèles ont récemment tenté d'appliquer leur « pensée probabiliste » d'une manière plus orientée vers les étapes intermédiaires de cette « pensée ».
En d'autres termes, nous avons assisté à une évolution vers des modèles d'IA qui tentent de raisonner à travers leur pensée, plutôt que de sauter simplement à une conclusion probabiliste. Bien sûr, ces étapes individuelles du raisonnement peuvent elles-mêmes être obtenues de manière probabiliste. Selon les experts, « il est clair que nous sommes encore loin d'avoir des modèles d'IA qui atteignent les capacités de raisonnement des plus brillants d'entre nous ».
Même avec l'accès à des outils comme Python, qui permet aux modèles d'IA d'écrire et d'exécuter du code pour tester des hypothèses et vérifier des résultats intermédiaires, ils n'ont pas été à la hauteur. Epoch AI a évalué six des modèles d'IA les plus avancés, dont GPT-4o, Gemini 1.5 Pro et Claude 3.5 Sonnet, et a constaté qu'aucun ne pouvait résoudre plus de 2 % des problèmes. Selon Epoch AI, FrontierMath offre un aperçu fascinant des limites de l'IA.
Sur des benchmarks tels que GSM-8K et MATH, les principaux systèmes d'IA obtiennent aujourd'hui des résultats supérieurs à 90 %, mais ces tests commencent à approcher de la saturation. L'un des principaux problèmes est la contamination des données : les modèles d'IA sont souvent formés sur des problèmes qui ressemblent étroitement à ceux des ensembles de tests, ce qui rend leurs performances moins impressionnantes qu'il n'y paraît à première vue.
De nombreux experts considèrent qu'il s'agit là d'une preuve que les modèles d'IA actuels sont de « piètres apprenants généralistes ». FrontierMath a été conçu pour être beaucoup plus difficile que les tests mathématiques traditionnels que les modèles d'IA ont déjà conquis. Les problèmes ont fait l'objet d'un examen par les pairs pour en vérifier l'exactitude et les ambiguïtés. Environ un problème sur vingt (5 %) a dû être corrigé au cours du processus de révision.
Ce taux est comparable à celui d'autres grands critères de référence en matière d'apprentissage automatique. Par ailleurs, Epoch AI et son collège de scientifiques n'ont pas publié les problèmes du benchmark FrontierMath, de sorte que les entreprises spécialisées dans l'IA ne peuvent pas s'entraîner contre ces problèmes.
Les benchmarks du secteur de l'IA : s'agit-il d'un simple argument marketing ?
La différence frappante entre les résultats des tests standard et ceux de FrontierMath met en évidence un problème fondamental dans l'évaluation comparative de l'IA : « les tests ne mesurent que des compétences spécifiques et limitées ». Les entreprises spécialisées dans l'IA dépensent des millions pour optimiser leurs modèles d'IA en fonction de ces critères de référence standard. De nombreux experts affirment que ces benchmarks servent d'outil de marketing.
8/10 Mathematics offers a uniquely suitable sandbox for evaluating complex reasoning. It requires creativity and extended chains of precise logic—often involving intricate proofs—that must be meticulously planned and executed, yet allows for objective verification of results.
— Epoch AI (@EpochAIResearch) November 8, 2024
Andrej Karpathy, ancien développeur d'OpenAI, affirme que les résultats de FrontierMath montrent un nouvel aspect du paradoxe de Moravec : « si l'IA peut exceller dans des tâches complexes aux règles claires, comme les échecs de haut niveau, elle échoue souvent dans des problèmes simples que les gens gèrent avec aisance ». Lorsque les tâches font appel au bon sens ou à une résolution instinctive des problèmes, les systèmes d'IA ne sont pas à la hauteur.
« Ils peuvent résoudre des problèmes fermés complexes si vous leur présentez la description du problème sur un plateau dans l'invite, mais ils ont du mal à enchaîner de manière cohérente de longues séquences autonomes de résolution de problèmes d'une manière qu'une personne trouverait très facile », explique Andrej Karpathy. Il suggère que le domaine a besoin de nouveaux tests pour mesurer « toutes les choses “faciles” qui sont secrètement difficiles ».
Néanmoins, l'équipe d'Epoch AI considère les mathématiques comme un cadre idéal pour évaluer les raisonnements complexes. Elles requièrent à la fois de la créativité et des chaînes logiques précises, tout en permettant une vérification objective des résultats. Les systèmes d'IA actuels sont en loin d'atteindre ce niveau. Les experts invitent les utilisateurs à se rappeler que l'IA ne vise pas la vérité et à éviter d'avoir une confiance aveugle dans les capacités de l'IA.
Sources : FrontierMath, Epoch AI
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous du nouveau benchmark de mathématiques avancées FrontierMath ?
Constitue-t-il un outil pertinent pour l'évaluation des capacités de raisonnement des modèles d'IA ?
Quelle comparaison faites-vous entre FrontierMath et les benchmarks déjà conquis par les systèmes d'IA actuels ?
Certains critiques affirment que les benchmarks du secteur de l'IA servent d'outil de marketing. Qu'en pensez-vous ?
Voir aussi
L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner : "nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage"
Les LLM IA auront toujours des hallucinations, et nous devons nous en accommoder, car les hallucinations découlent de la structure mathématique et logique fondamentale des LLM, selon une étude
Malgré leurs fortes capacités de raisonnement inductif, les LLM ont tendance à manquer de capacités de raisonnement déductif, en particulier dans les tâches impliquant un raisonnement "contrefactuel"
Partager