IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Malgré leurs capacités de raisonnement inductif, les LLM ont manquent de capacités de raisonnement déductif


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 309
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 309
    Points : 21 576
    Points
    21 576
    Par défaut Malgré leurs capacités de raisonnement inductif, les LLM ont manquent de capacités de raisonnement déductif
    Malgré leurs fortes capacités de raisonnement inductif, les LLM ont tendance à manquer de capacités de raisonnement déductif, en particulier dans les tâches impliquant un raisonnement "contrefactuel"

    Une étude récente de l'université de Californie à Los Angeles révèle que si les grands modèles de langage (LLM) disposent de fortes capacités de raisonnement inductif, leurs capacités de raisonnement déductif, en particulier dans les tâches impliquant un raisonnement "contrefactuel", sont nettement plus faibles. Les chercheurs ont introduit un framework baptisé SolverLearner pour isoler et évaluer le raisonnement inductif des LLM, montrant une performance presque parfaite. Toutefois, cette réussite contraste avec une performance relativement faible en matière de raisonnement déductif, soulevant des questions sur les problèmes de raisonnement fondamentaux auxquels sont confrontés les LLM.

    Un grand modèle de langage (LLM) est un modèle informatique capable de générer du langage ou d'effectuer d'autres tâches de traitement du langage naturel. En tant que modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé.

    Les LLM les plus grands et les plus performants, à partir d'août 2024, sont des réseaux neuronaux artificiels construits avec une architecture basée sur un décodeur à transformateur uniquement, qui permet un traitement et une génération efficaces de données textuelles à grande échelle. Ces modèles acquièrent un pouvoir prédictif concernant la syntaxe, la sémantique et les ontologies inhérentes aux corpus de langage humain, mais ils héritent également des inexactitudes et des biais présents dans les données sur lesquelles ils sont formés.


    Dans une récente étude, des chercheurs de l'université de Californie et d'Amazon ont exploré un aspect moins étudié des LLM en tentant d'apporter des éléments de réponse à la question suivante : dans le cadre du raisonnement LLM, quel est le plus grand défi - le raisonnement déductif ou le raisonnement inductif ?

    Le raisonnement comprend en général deux catégories typiques : le raisonnement déductif et le raisonnement inductif. Malgré des recherches approfondies sur les capacités de raisonnement des grands modèles de langage (LLM), la plupart des études n'ont pas réussi à différencier rigoureusement le raisonnement inductif et le raisonnement déductif, ce qui a conduit à un mélange des deux.

    Alors que les capacités de raisonnement déductif des LLM (c'est-à-dire leur capacité à suivre des instructions dans des tâches de raisonnement) ont fait l'objet d'une attention considérable, leurs capacités en matière de raisonnement inductif restent à ce jour largement inexplorées.

    Nom : LLM raisonnement fig 1.PNG
Affichages : 4968
Taille : 238,1 Ko

    Pour étudier les capacités de raisonnement inductif des LLM, les auteurs de l'étude ont introduit un nouveau framework, SolverLearner. En se concentrant sur le raisonnement inductif tout en mettant de côté le raisonnement déductif basé sur les LLM, SolverLearner a permis d'examiner la forme pure du raisonnement inductif dans les LLM.

    Concrètement, SolverLearner permet aux LLM d'apprendre la fonction sous-jacente (c'est-à-dire y=fw(x)), qui associe des points de données d'entrée (x) à leurs valeurs de sortie correspondantes (y), en utilisant uniquement des exemples en contexte. En se concentrant sur le raisonnement inductif et en le séparant du raisonnement déductif basé sur les LLM, les auteurs ont isolé et étudié le raisonnement inductif des LLM dans sa forme pure via SolverLearner.

    Nom : LLM raisonnement fig 2.PNG
Affichages : 1247
Taille : 93,5 Ko

    Leurs observations révèlent que les LLMs démontrent des capacités remarquables de raisonnement inductif à travers SolverLearner, atteignant une performance presque parfaite avec un ACC de 1 dans la plupart des cas.

    De manière surprenante, malgré leurs fortes capacités de raisonnement inductif, les auteurs ont découvert que les LLM présentent souvent des capacités déductives plus faibles et ont tendance à manquer relativement de capacités de raisonnement déductif, en particulier dans les tâches impliquant un raisonnement ou des scénarios « contrefactuels ».

    Nom : LLM raisonnement fig 5.PNG
Affichages : 1282
Taille : 84,8 Ko

    Source : "Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs" (étude de l'université de Californie)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous les conclusions de cette étude de l'université de Californie crédibles ou pertinentes ?

    Voir aussi :

    ChatGPT a un QI de 155 et une capacité de mémoire qui dépasse toute l'histoire, et en 2024 nous verrons des solutions d'IA pour le raisonnement profond et les mathématiques complexes, d'après Mo Gawdat

    Des chercheurs ont donné à l'IA un "monologue intérieur" qui a permis d'améliorer considérablement ses performances : Quiet-STaR, les modèles de langage peuvent apprendre à réfléchir avant de parler

    Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3

  2. #2
    Expert éminent Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 038
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 038
    Points : 8 405
    Points
    8 405
    Par défaut
    c'est intéressant. vous savez quoi d'autre a une forte capacité inductive et une faible capacité déductive ?
    notre inconscient.

  3. #3
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 760
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 760
    Points : 122 681
    Points
    122 681
    Par défaut L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner
    L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner : "Nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage".

    Des scientifiques d'Apple spécialisés dans l'IA ont étudié les capacités de raisonnement des grands modèles de langage (LLM) et les limites des évaluations actuelles sur le GSM8K. Ils ont constaté que les modèles d'IA basés sur le LLM manquent encore de compétences de base en matière de raisonnement. Ils introduisent également GSM-Symbolic, un nouveau benchmark avec de multiples variantes conçu pour fournir des informations plus approfondies sur les capacités de raisonnement mathématique des LLM.

    Malgré leurs fortes capacités de raisonnement inductif, les grands modèles de langage (LLM) ont tendance à manquer de capacités de raisonnement déductif, en particulier dans les tâches impliquant un raisonnement "contrefactuel". Ce résultat d'une étude de l'université de Californie soulève des questions sur les problèmes de raisonnement fondamentaux auxquels sont confrontés les LLM.

    Pour rappel, un grand modèle de langage (LLM) est un modèle informatique capable de générer du langage ou d'effectuer d'autres tâches de traitement du langage naturel. Depuis d'août 2024, les LLM les plus performants sont des réseaux neuronaux artificiels construits avec une architecture basée sur un décodeur à transformateur uniquement, qui permet un traitement et une génération efficaces de données textuelles à grande échelle. Ces modèles acquièrent un pouvoir prédictif concernant la syntaxe, la sémantique et les ontologies inhérentes aux corpus de langage humain, mais ils héritent également des inexactitudes et des biais présents dans les données sur lesquelles ils sont formés.

    Une nouvelle étude d'Apple confirme cette étude de l'université de Californie. L'étude des scientifiques d'Apple spécialisés dans l'intelligence artificielle (IA) a révélé que les moteurs basés sur les LLM, tels que ceux de Meta et d'OpenAI, manquent encore de compétences de base en matière de raisonnement. Ils prouvent que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner.

    Nom : 1.jpg
Affichages : 131863
Taille : 70,7 Ko
    Chute des performances des modèles sur GSM-Symbolic par rapport au GSM8K

    Le groupe a proposé un nouveau critère de référence, GSM-Symbolic, pour aider les autres à mesurer les capacités de raisonnement de divers grands modèles de langage (LLM). Leurs premiers tests révèlent que de légères modifications dans la formulation des requêtes peuvent donner lieu à des réponses sensiblement différentes, ce qui compromet la fiabilité des modèles.

    Le groupe a étudié la "fragilité" du raisonnement mathématique en ajoutant à ses requêtes des informations contextuelles qu'un humain pourrait comprendre, mais qui ne devraient pas affecter les mathématiques fondamentales de la solution. Cela a donné lieu à des réponses variables, ce qui ne devrait pas se produire.

    "Plus précisément, les performances de tous les modèles diminuent [même] lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolic", écrit le groupe dans son rapport. "En outre, la fragilité du raisonnement mathématique dans ces modèles [démontre] que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente."

    L'étude a montré que l'ajout d'une seule phrase qui semble fournir des informations pertinentes pour une question de mathématiques donnée peut réduire la précision de la réponse finale jusqu'à 65 %. "Il est tout simplement impossible de construire des agents fiables sur cette base, où la modification d'un mot ou deux de manière non pertinente ou l'ajout de quelques informations non pertinentes peut donner une réponse différente", conclut l'étude.

    Nom : 2.jpg
Affichages : 42478
Taille : 132,9 Ko

    Les chercheurs présentent l'étude :

    Les progrès récents des LLM ont suscité l'intérêt pour leurs capacités de raisonnement formel, en particulier en mathématiques. Le benchmark GSM8K est largement utilisé pour évaluer le raisonnement mathématique des modèles sur des questions de niveau scolaire. Bien que les performances des LLM sur le GSM8K se soient considérablement améliorées ces dernières années, il n'est pas certain que leurs capacités de raisonnement mathématique aient réellement progressé, ce qui soulève des questions quant à la fiabilité des mesures rapportées.

    Pour répondre à ces préoccupations, nous menons une étude à grande échelle sur plusieurs modèles ouverts et fermés de pointe. Pour surmonter les limites des évaluations existantes, nous introduisons GSM-Symbolic, un benchmark amélioré créé à partir de modèles symboliques qui permettent la génération d'un ensemble varié de questions. GSM-Symbolic permet des évaluations plus contrôlables, fournissant des informations clés et des mesures plus fiables pour mesurer les capacités de raisonnement des modèles.

    Nos résultats révèlent que les LLM présentent une variance notable lorsqu'ils répondent à différentes instanciations de la même question. Plus précisément, la performance de tous les modèles diminue lorsque seules les valeurs numériques de la question sont modifiées dans le benchmark GSM-Symbolique. En outre, nous étudions la fragilité du raisonnement mathématique dans ces modèles et démontrons que leurs performances se détériorent de manière significative à mesure que le nombre de clauses dans une question augmente.

    Nous émettons l'hypothèse que ce déclin est dû au fait que les LLM actuels ne sont pas capables d'un véritable raisonnement logique ; au lieu de cela, ils tentent de reproduire les étapes de raisonnement observées dans leurs données d'apprentissage. Lorsque nous ajoutons une seule clause qui semble pertinente à la question, nous observons des baisses de performance significatives (jusqu'à 65%) dans tous les modèles de pointe, même si la clause ajoutée ne contribue pas à la chaîne de raisonnement nécessaire pour atteindre la réponse finale. Dans l'ensemble, notre travail fournit une compréhension plus nuancée des capacités et des limites des LLMs dans le raisonnement mathématique.
    Nom : 3.jpg
Affichages : 42496
Taille : 124,2 Ko
    Précision des modèles sur GSM-Symbolic


    Cette étude révèle plusieurs points :

    • La limite des benchmarks actuels : Les résultats de l'étude approfondie révèle une variabilité significative des performances entre les différentes instanciations de la même question, ce qui remet en question la fiabilité des résultats actuels du GSM8K qui s'appuient sur des mesures de précision à un seul point. Les chercheurs ont constaté que si les LLM présentent une certaine robustesse aux changements dans les noms propres, ils sont plus sensibles aux variations dans les valeurs numériques. Ils ont également observé que la performance des LLM se détériore à mesure que la complexité des questions augmente.

    • La véritable nature du raisonnement des LLM : L'introduction de GSM-NoOp expose une faille critique dans la capacité des LLM à comprendre véritablement les concepts mathématiques et à discerner les informations pertinentes pour la résolution de problèmes. L'ajout d'informations apparemment pertinentes mais finalement sans importance au raisonnement logique du problème a conduit à des baisses de performance substantielles allant jusqu'à 65% dans tous les modèles de pointe.

      Ces résultats soulignent les limites significatives de la capacité des LLM à effectuer un véritable raisonnement mathématique. La grande variance de la performance des LLM sur différentes versions de la même question, leur chute substantielle de performance avec une augmentation mineure de la difficulté, et leur sensibilité aux informations sans importance indiquent que leur raisonnement est fragile. Il peut ressembler davantage à un appariement sophistiqué qu'à un véritable raisonnement logique.

      Il est intéressant de noter que les LLM se débattent même lorsqu'on leur fournit plusieurs exemples de la même question ou des exemples contenant des informations similaires non pertinentes. Cela suggère des problèmes plus profonds dans leurs processus de raisonnement qui ne peuvent pas être facilement atténués par l'apprentissage ou le réglage fin. Pour rappel, le GSM8K et le GSM-Symbolique comprennent tous deux des questions mathématiques relativement simples d'école primaire, ne nécessitant que des opérations arithmétiques de base à chaque étape. Par conséquent, les limites actuelles de ces modèles sont susceptibles d'être plus prononcées dans des tests mathématiques plus difficiles.

    • L'orientation des futures recherches pour l'amélioration des LLM : Il serait essentiel de poursuivre les recherches pour développer des modèles d'IA capables de raisonnement formel, allant au-delà de la reconnaissance des formes pour atteindre des compétences de résolution de problèmes plus robustes et généralisables. Il s'agit là d'un défi majeur pour le domaine pour créer des systèmes dotés de capacités cognitives semblables à celles de l'homme ou d'une intelligence générale.


    Nom : 4.jpg
Affichages : 42219
Taille : 116,5 Ko
    Résultats des modèles sur des variantes de GSM-Symbolic

    En conclusion, à l'heure actuelle, les capacités de raisonnement des LLM sont limitées et les modèles ne sont pas capables de s'améliorer. Une étude menée par Google DeepMind en collaboration avec l'Université de l'Illinois à Urbana-Champaign avait déjà révélé que les LLM ne peuvent pas s'autocorriger dans les tâches de raisonnement. En fait, l'étude suggérait que l'autocorrection peut parfois nuire à la précision et aux capacités de raisonnement des modèles. Cette étude d'Apple permettra de mieux orienter les recherches pour améliorer les performances de raisonnement des LLM à l'avenir.


    Source : "GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models"

    Et vous ?

    Pensez-vous que cette étude est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes, car o1 réfléchit avant de répondre

    Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3

    Des chercheurs ont donné à l'IA un "monologue intérieur" qui a permis d'améliorer considérablement ses performances : Quiet-STaR. Les modèles de langage peuvent apprendre à réfléchir avant de parler
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  4. #4
    Membre émérite
    Homme Profil pro
    Expertise comptable
    Inscrit en
    Décembre 2019
    Messages
    785
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Expertise comptable
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Décembre 2019
    Messages : 785
    Points : 2 783
    Points
    2 783
    Par défaut
    Il serait essentiel de poursuivre les recherches pour développer des modèles d'IA capables de raisonnement formel
    C'est bien gentil mais le raisonnement inductif ou déductif que l'IA produit par inférence statistique ne sera jamais un raisonnement formel, c'est un peu le sujet de l'article, du coup en creux c'est un peu avouer à moitié que tout ça c'est... du turbo vent ?

  5. #5
    Membre du Club
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Avril 2020
    Messages
    16
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2020
    Messages : 16
    Points : 64
    Points
    64
    Par défaut politiquement correct
    C'est bien gentil mais le raisonnement inductif ou déductif que l'IA produit par inférence statistique ne sera jamais un raisonnement formel, c'est un peu le sujet de l'article, du coup en creux c'est un peu avouer à moitié que tout ça c'est... du turbo vent ?

    Oui c'est un debuncking étude à l'appui, mais politiquement correcte, pour dire, les ia on confirme c'est du vent.

    Très intéressant d'ailleurs d'avoir des personnes qui s'applique a monter des protocoles pour exposer les limites vs la com commerciales à plusieurs millions.
    C'est sûr que les gars ils ne peuvent pas arriver dans le gamme en disant "vos ia c'est de la daube".... Ils n'ont pas de choix que de nuancer l'intonation de leur propos s’ils veulent se faire entendre un minimum.

    Au moins leurs travaux on le mérite d'exister et d'être publié, on devrait en être contant, ça nous donne des arguments legit.

  6. #6
    Membre régulier
    Homme Profil pro
    Ingénieur développement matériel électronique
    Inscrit en
    Juillet 2016
    Messages
    53
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 71
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Ingénieur développement matériel électronique

    Informations forums :
    Inscription : Juillet 2016
    Messages : 53
    Points : 114
    Points
    114
    Par défaut Raisonnement stéréotypé
    J'avais remarqué, lors d'un test sur ChatGPT 3.5, qu'il avait donné la réponse classique au problème classique du nénuphar qui double chaque jour pour lequel j'avais changé les unités en remplaçant les jours par des heures. Sa réponse était un jour de moins au lieu d'une heure de moins.
    Il ne faut pas trop s'éloigner de son apprentissage, mais comment le savoir ?
    J'utilise courament Claude AI comme un savoir encyclopédique qui arrive à extraire beaucoup de caractéristiques auxquelles je ne pensais pas. Je lui fait reformuler ma pensée de manière bien structurée avec une argumentation solide.

Discussions similaires

  1. Réponses: 0
    Dernier message: 16/08/2024, 22h31
  2. Réponses: 11
    Dernier message: 02/06/2022, 12h56
  3. Réponses: 29
    Dernier message: 01/06/2013, 21h40
  4. Réponses: 13
    Dernier message: 09/02/2011, 18h28
  5. Réponses: 0
    Dernier message: 07/02/2011, 03h05

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo