Pourquoi les grands modèles de langage IA inventent-ils des informations ? Anthropic tente une approche,
pour analyser le contexte dans lequel Claude « hallucine »
Les modèles de langage de grande taille (LLM) tels que GPT-4 et GPT-3 ont révolutionné le traitement du langage naturel, offrant des capacités impressionnantes en génération de texte, traduction et compréhension. Cependant, malgré leur puissance, ces modèles peuvent parfois produire des informations incorrectes ou inventées, un phénomène souvent désigné sous le terme « hallucinations ».
L'émergence des grands modèles de langage (LLM) a marqué une étape importante dans le domaine de l'intelligence artificielle, en particulier dans le traitement du langage naturel. Ces modèles, avec leurs vastes bases de connaissances et leur capacité à générer des textes cohérents et pertinents sur le plan contextuel, ont eu un impact considérable sur la recherche, l'industrie et la société.
Cependant, l'un des défis majeurs auxquels ils sont confrontés est le problème de « l'hallucination », où les modèles génèrent des informations plausibles mais factuellement incorrectes ou absurdes. Ce problème a suscité des préoccupations croissantes en matière de sécurité dans la mesure où les LLM sont largement appliqués, ce qui a donné lieu à une littérature de plus en plus abondante pour tenter de le classer, de le comprendre et de l'atténuer.
Des travaux antérieurs ont identifié de multiples sources possibles d'hallucination dans les LLM, de la collecte des données aux aspects de formation et d'inférence. Par exemple, dans l'étude "Survey of Hallucination in Natural Language Generation", les auteurs attribuent l'hallucination dans la génération de langage naturel à la collecte heuristique de données, à la divergence innée, à l'apprentissage imparfait de la représentation, au décodage erroné, au biais d'exposition et au biais de connaissance paramétrique.
Une pléthore de méthodes a été proposée pour atténuer l'hallucination. Par exemple, des mesures centrées sur les faits et des repères ont été proposés pour mesurer et réduire l'hallucination sur des ensembles de données spécifiques. Les méthodes basées sur la recherche renforcent le LLM par des graphes de connaissances ou des bases de données pour aider à corriger les erreurs factuelles dans les résultats des modèles. L'incitation des modèles à raisonner et à vérifier leurs réponses a également été démontrée pour réduire l'hallucination.
Jusqu'à présent, la recherche sur l'hallucination LLM reste largement empirique. Aussi utiles soient-elles, les études empiriques ne peuvent pas répondre à la question fondamentale : peut-on éliminer complètement l'hallucination ? La réponse à cette question est fondamentale car elle indique une limite supérieure possible des capacités des LLM. Cependant, comme il est impossible d'énumérer et de tester empiriquement toutes les données possibles, il est impossible de discuter formellement de cette question sans une définition claire et une analyse formelle de l'hallucination.
L'approche d'Anthropic
L'un des aspects les plus frustrants de l'utilisation d'un grand modèle de langage est sa tendance à inventer des informations, à donner des réponses hallucinées qui ne sont pas étayées par ses données d'apprentissage. D'un point de vue humain, il peut être difficile de comprendre pourquoi ces modèles ne disent pas simplement « je ne sais pas » au lieu d'inventer des absurdités plausibles.
Cette fois-ci, de nouvelles recherches menées par Anthropic révèlent au moins une partie du « circuit » interne du réseau neuronal qui aide un LLM à décider quand tenter de donner une réponse (peut-être hallucinée) plutôt que de refuser une réponse en premier lieu. Bien que la compréhension humaine de ce processus interne de « décision » du LLM soit encore approximative, ce type de recherche pourrait conduire à de meilleures solutions globales pour le problème de la confabulation de l'IA.
Quand une « entité connue » ne l'est pas
Dans un article publié en mai dernier, Anthropic a utilisé un système d'auto-encodeurs épars pour éclairer les groupes de neurones artificiels qui sont activés lorsque Claude LLM rencontre des concepts internes allant du « Golden Gate Bridge » aux « erreurs de programmation » (Anthropic appelle ces groupes des « caractéristiques », comme nous le ferons dans la suite). Les recherches récemment publiées par Anthropic développent ces travaux antérieurs en montrant comment ces caractéristiques peuvent affecter d'autres groupes de neurones qui représentent les « circuits » de décision informatique que Claude suit pour élaborer sa réponse.
Dans deux articles, Anthropic explique en détail comment un examen partiel de certains de ces circuits neuronaux internes permet de mieux comprendre comment Claude « pense » en plusieurs langues, comment il peut être trompé par certaines techniques de jailbreaking, et même si les explications de sa « chaîne de pensée » tant vantée sont exactes. Mais la section décrivant le processus de « reconnaissance d'entités et d'hallucinations » de Claude fournit l'une des explications les plus détaillées d'un problème compliqué que nous ayons vues.
À la base, les grands modèles de langage sont conçus pour prendre une chaîne de texte et prédire le texte qui est susceptible de suivre - une conception qui a conduit certains à se moquer de l'ensemble de l'entreprise en la qualifiant « d'autocomplétion glorifiée ». Cette conception de base est utile lorsque le texte de l'invite correspond étroitement aux types de choses déjà trouvées dans les nombreuses données d'entraînement d'un modèle. Cependant, pour les « faits ou sujets relativement obscurs », cette tendance à toujours compléter l'invite « incite les modèles à deviner des compléments plausibles pour des blocs de texte », écrit Anthropic dans sa nouvelle étude.
Le réglage fin permet d'atténuer ce problème, en guidant le modèle pour qu'il agisse comme un assistant utile et refuse de répondre à une question lorsque les données d'apprentissage correspondantes sont peu nombreuses. Ce processus de réglage fin crée des ensembles distincts de neurones artificiels que les chercheurs peuvent voir s'activer lorsque Claude rencontre le nom d'une « entité connue » (par exemple, « Michael Jordan ») ou un « nom inconnu » (par exemple, « Michael Batkin ») dans une invite.
Un graphique simplifié montrant l'interaction des différentes caractéristiques et des circuits dans les messages sur les stars du sport, vraies ou fausses.
L'activation de la fonction « nom inconnu » parmi les neurones d'un LLM tend à promouvoir un circuit interne « ne peut pas répondre » dans le modèle, écrivent les chercheurs, l'encourageant à fournir une réponse commençant par « Je m'excuse, mais je ne peux pas... » En fait, les chercheurs ont constaté que le circuit « ne peut pas répondre » a tendance à se mettre par défaut en position « on » (« activée ») dans la version « assistant » affinée du modèle de Claude, ce qui rend le modèle réticent à répondre à une question à moins que d'autres caractéristiques actives de son réseau neuronal ne suggèrent qu'il devrait le faire.
C'est ce qui se produit lorsque le modèle rencontre un terme bien connu comme « Michael Jordan » dans une question, activant cette caractéristique « d'entité connue » et entraînant à son tour les neurones du circuit « ne peut pas répondre » à être « inactifs ou plus faiblement actifs », écrivent les chercheurs. Une fois que cela se produit, le modèle peut plonger plus profondément dans son graphique de caractéristiques liées à Michael Jordan pour fournir sa meilleure estimation d'une réponse à une question telle que « Quel est le sport pratiqué par Michael Jordan ? »
Différence entre reconnaissance et rappel
La recherche d'Anthropic a montré qu'en augmentant artificiellement le poids des neurones dans la fonction « réponse connue », on pouvait forcer Claude à halluciner en toute confiance des informations sur des athlètes complètement inventés, comme « Michael Batkin ». Ce type de résultat amène les chercheurs à suggérer « qu'au moins une partie » des hallucinations de Claude sont liées à un « raté » du circuit inhibant la voie « ne peut pas répondre », c'est-à-dire des situations où la caractéristique « entité connue » (ou d'autres caractéristiques similaires) est activée même lorsque le jeton n'est pas bien représenté dans les données d'entraînement.
Malheureusement, la modélisation par Claude de ce qu'il sait et de ce qu'il ne sait pas n'est pas toujours très fine ni très nette. Dans un autre exemple, les chercheurs notent que si l'on demande à Claude de nommer un article écrit par le chercheur en IA Andrej Karpathy, le modèle communique le titre de l'article « ImageNet Classification with Deep Convolutional Neural Networks », qui semble plausible bien que complètement inventé. En revanche, si l'on pose la même question au sujet du mathématicien anthropologue Josh Batson, Claude répond qu'il « ne peut pas nommer en toute confiance un article spécifique... sans avoir vérifié l'information ».
La suppression artificielle des neurones « à réponse connue » de Claude l'empêche d'halluciner des articles inventés par Andrej Karpathy, chercheur en IA.
Après avoir expérimenté les poids des caractéristiques, les chercheurs d'Anthropic ont émis la théorie que l'hallucination de Karpathy peut être causée par le fait que le modèle reconnaît au moins le nom de Karpathy, activant certaines caractéristiques de « réponse/entité connue » dans le modèle. Ces caractéristiques inhibent alors le circuit par défaut « ne pas répondre » du modèle, même si ce dernier ne dispose pas d'informations plus spécifiques sur les noms des articles de Karpathy (que le modèle devine alors dûment après s'être engagé à répondre). Un modèle affiné pour disposer d'ensembles plus robustes et plus spécifiques de ce type de caractéristiques « d'entités connues » pourrait alors être en mesure de mieux distinguer quand il doit ou ne doit pas être confiant dans sa capacité à répondre.
Source : Anthropic
Et vous ?
Quelle lecture faites-vous de l'étude d'Anthropic ?
Comment peut-on garantir une meilleure représentativité et fiabilité des données utilisées pour entraîner les modèles de langage ? Les entreprises devraient-elles partager leurs datasets pour une vérification externe ?
Les chercheurs et les entreprises qui développent des LLM doivent-ils être plus transparents sur leurs méthodes d'entraînement et de fine-tuning pour permettre une meilleure compréhension des causes des hallucinations ?
Existe-t-il des approches alternatives aux LLM actuels pour résoudre le problème des hallucinations, comme des systèmes plus basés sur des règles ou des hybridations avec des IA symboliques ?
Partager