Près de trois quarts des juristes prévoient d'utiliser l'IA pour leur travail, ce qui est effrayant, les modèles d'IA juridique hallucinent une fois sur six (ou plus) dans les évaluations comparatives.
Près des trois quarts des avocats prévoient d'utiliser l'IA générative pour leur travail. Mais une nouvelle étude révèle la nécessité de procéder à des analyses comparatives et à des évaluations publiques des outils d'IA dans le domaine juridique. Lors des tests comparatives, les modèles juridiques hallucinaient une fois sur six (ou plus).
Les outils d'intelligence artificielle (IA) transforment rapidement la pratique du droit. Près des trois quarts des avocats prévoient d'utiliser l'IA générative pour leur travail, qu'il s'agisse de passer au crible des montagnes de jurisprudence, de rédiger des contrats, d'examiner des documents ou de rédiger des mémorandums juridiques. Mais ces outils sont-ils suffisamment fiables pour être utilisés dans le monde réel ?
Les grands modèles de langage ont une tendance documentée à "halluciner", ou à inventer de fausses informations. Dans un cas très médiatisé, un avocat new-yorkais a été sanctionné pour avoir cité des cas fictifs inventés par ChatGPT dans un mémoire juridique ; de nombreux cas similaires ont été signalés depuis.
Par ailleurs, une précédente étude sur les chatbots à usage général a révélé qu'ils hallucinaient entre 58 % et 82 % du temps sur des questions juridiques, ce qui met en évidence les risques liés à l'intégration de l'IA dans la pratique juridique. Dans son rapport annuel de 2023 sur le pouvoir judiciaire, le juge en chef Roberts en a pris note et a mis en garde les avocats contre les hallucinations.
Dans tous les domaines de l'industrie, la génération augmentée par récupération (RAG) est considérée et promue comme la solution pour réduire les hallucinations dans des contextes spécifiques à un domaine. S'appuyant sur la RAG, les principaux services de recherche juridique ont mis sur le marché des produits de recherche juridique alimentés par l'IA qui, selon eux, "évitent" les hallucinations et garantissent des citations juridiques "exemptes d'hallucinations".
Les systèmes RAG promettent de fournir des informations juridiques plus précises et plus fiables en intégrant un modèle linguistique à une base de données de documents juridiques. Cependant, les fournisseurs n'ont pas fourni de preuves tangibles de ces affirmations ni même défini précisément le terme "hallucination", ce qui rend difficile l'évaluation de leur fiabilité dans le monde réel.
Les outils de recherche juridique pilotés par l'IA hallucinent toujours
Dans une nouvelle étude réalisée par le Stanford RegLab et des chercheurs de l'HAI, des chercheurs ont mis à l'épreuve les affirmations de deux fournisseurs, LexisNexis (créateur de Lexis+ AI) et Thomson Reuters (créateur de Westlaw AI-Assisted Research et de Ask Practical Law AI)). L'étude montre que leurs outils réduisent effectivement les erreurs par rapport aux modèles d'IA à usage général tels que GPT-4.
Il s'agit d'une amélioration substantielle et l'étude documente des cas où ces outils fournissent une recherche juridique solide et détaillée. Cependant, même ces outils d'IA juridique sur mesure continuent de produire des hallucinations dans des proportions alarmantes : les systèmes d'IA Lexis+ et Ask Practical Law ont produit des informations incorrectes dans plus de 17 % des cas, tandis que le système AI-Assisted Research de Westlaw a produit des hallucinations dans plus de 34 % des cas.
Les chercheurs partagent leurs méthodologies lors de l'étude :
Selon l'étude, ses systèmes peuvent avoir des hallucinations de deux manières. Premièrement, une réponse d'un outil d'intelligence artificielle peut tout simplement être incorrecte - elle décrit mal le droit ou commet une erreur factuelle. Deuxièmement, une réponse peut être mal fondée - l'outil d'IA décrit correctement le droit, mais cite une source qui n'étaye pas ses affirmations.Pour réaliser notre étude, nous avons construit manuellement un ensemble de données préenregistrées de plus de 200 requêtes juridiques ouvertes, que nous avons conçues pour sonder divers aspects de la performance de ces systèmes.
De manière générale, nous avons étudié (1) les questions de recherche générale (questions sur la doctrine, la jurisprudence ou l'examen du barreau) ; (2) les questions spécifiques à une juridiction ou à une période (questions sur les divisions de circuits et les changements récents dans le droit) ; (3) les questions sur les fausses prémisses (questions qui imitent un utilisateur ayant une compréhension erronée du droit) ; et (4) les questions sur le rappel des faits (questions sur des faits simples et objectifs qui ne nécessitent aucune interprétation juridique). Ces questions sont conçues pour refléter un large éventail de types de requêtes et pour constituer un ensemble de données réelles stimulantes sur les types de requêtes pour lesquelles la recherche juridique peut être la plus nécessaire.
Étant donné l'importance cruciale des sources faisant autorité dans la recherche et la rédaction juridiques, le deuxième type d'hallucination peut être encore plus pernicieux que l'invention pure et simple d'affaires juridiques. Une citation peut être "sans hallucination" dans le sens le plus étroit où la citation existe, mais ce n'est pas la seule chose qui compte.
La promesse principale de l'IA juridique est qu'elle peut rationaliser le processus fastidieux d'identification des sources juridiques pertinentes. Si un outil fournit des sources qui semblent faire autorité mais qui sont en réalité non pertinentes ou contradictoires, les utilisateurs pourraient être induits en erreur. Ils pourraient accorder une confiance excessive aux résultats de l'outil, ce qui pourrait conduire à des jugements et conclusions juridiques erronés.
La génération augmentée par récupération (RAG) n'est pas une panacée
Ces nouveaux outils d'IA juridique utilisent la génération augmentée par récupération (RAG) pour produire leurs résultats, une méthode que beaucoup vantent comme une solution potentielle au problème de l'hallucination.
En théorie, la RAG permet à un système de récupérer d'abord le matériel source pertinent et de l'utiliser ensuite pour générer la réponse correcte. En pratique, cependant, l'étude montre que même les systèmes RAG ne sont pas exempts d'hallucinations.
Exemple d'hallucinations
Les chercheurs identifient plusieurs défis qui sont particulièrement propres aux systèmes d'IA juridique basés sur la RAG et qui provoquent des hallucinations :
Tout d'abord, la recherche juridique est difficile. Comme tout avocat le sait, trouver l'autorité appropriée (ou la meilleure) n'est pas une tâche facile. Contrairement à d'autres domaines, le droit n'est pas entièrement composé de faits vérifiables - au lieu de cela, le droit est construit au fil du temps par des juges qui rédigent des avis.
Il est donc difficile d'identifier l'ensemble des documents qui répondent définitivement à une requête, et il arrive que des hallucinations se produisent pour la simple raison que le mécanisme de recherche du système échoue.
Deuxièmement, même lorsque l'extraction a lieu, le document extrait peut être une autorité inapplicable. Dans le système juridique américain, les règles et les précédents diffèrent d'une juridiction à l'autre et d'une période à l'autre ; les documents qui pourraient être pertinents à première vue en raison de leur similitude sémantique avec une requête peuvent en fait être inapplicables pour des raisons idiosyncrasiques propres à la loi.
Ainsi, nous observons également des hallucinations lorsque ces systèmes de RAG ne parviennent pas à identifier l'autorité réellement contraignante. Ceci est particulièrement problématique car les domaines où le droit est en évolution sont précisément ceux où la recherche juridique est la plus importante.
Un système, par exemple, a incorrectement récité la norme du « fardeau indu » pour les restrictions à l'avortement comme une bonne loi, qui a été renversée dans l'affaire Dobbs.
Troisièmement, la flagornerie - la tendance de l'IA à approuver les hypothèses incorrectes de l'utilisateur - présente également des risques uniques dans le domaine juridique.
Un système, par exemple, a naïvement accepté la prémisse de la question selon laquelle la juge Ginsburg était dissidente dans l'affaire Obergefell, qui a établi le droit au mariage homosexuel, et a répondu qu'elle l'était en raison de ses opinions sur le droit d'auteur international. (La juge Ginsburg n'a pas été dissidente dans l'affaire Obergefell et, non, l'affaire n'avait rien à voir avec le droit d'auteur).
Malgré cette réponse, les résultats sont optimistes. Nos tests ont montré que les deux systèmes naviguaient généralement de manière efficace dans les requêtes basées sur des prémisses erronées.
Mais lorsque ces systèmes sont d'accord avec les affirmations erronées des utilisateurs, les conséquences peuvent être graves, en particulier pour ceux qui espèrent utiliser ces outils afin d'améliorer l'accès à la justice pour les plaideurs autonomes et ceux qui ne disposent pas de ressources suffisantes.
Processus de la RAG
L'intégration responsable de l'IA dans le droit exige de la transparence
En fin de compte, ces résultats soulignent la nécessité d'une évaluation comparative rigoureuse et transparente des outils juridiques d'IA. Contrairement à d'autres domaines, l'utilisation de l'IA en droit reste d'une opacité alarmante. Les chercheurs affirment que les outils qu'ils ont étudé ne fournissent pas d'accès systématique, publient peu de détails sur leurs modèles et ne communiquent aucun résultat d'évaluation.
Cette opacité fait qu'il est extrêmement difficile pour les avocats de se procurer et d'acquérir des produits d'IA. Le grand cabinet d'avocats Paul Weiss a passé près d'un an et demi à tester un produit, et n'a pas développé de "mesures rigoureuses" parce que la vérification du système d'IA était si complexe qu'elle "rendait tout gain d'efficacité difficile à mesurer". L'absence de mesures d'évaluation rigoureuses rend difficile une adoption responsable, en particulier pour les praticiens qui disposent de moins de ressources que Paul Weiss.
Le manque de transparence menace également la capacité des avocats à se conformer aux exigences en matière d'éthique et de responsabilité professionnelle. Les barreaux de Californie, de New York et de Floride ont tous récemment publié des orientations sur le devoir de supervision des avocats concernant les produits de travail créés à l'aide d'outils d'IA. Et à partir de mai 2024, plus de 25 juges fédéraux ont émis des ordonnances permanentes demandant aux avocats de divulguer ou de surveiller l'utilisation de l'IA dans leurs salles d'audience.
Sans accès aux évaluations des outils spécifiques et sans transparence sur leur conception, les avocats pourraient se trouver dans l'impossibilité de s'acquitter de ces responsabilités. Par ailleurs, compte tenu du taux élevé d'hallucinations, les avocats pourraient se trouver dans l'obligation de vérifier chaque proposition et chaque citation fournies par ces outils, ce qui compromettrait les gains d'efficacité que les outils d'IA juridique sont censés apporter.
Les chercheurs concluent en déclarant :
Source : "Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools" (Université de Stanford)Notre étude ne vise en aucun cas à pointer du doigt LexisNexis et Thomson Reuters. Leurs produits sont loin d'être les seuls outils d'IA juridique qui ont besoin de transparence - un grand nombre de startups proposent des produits similaires et ont fait des déclarations similaires, mais ils sont disponibles sur des bases encore plus restreintes, ce qui rend encore plus difficile l'évaluation de leur fonctionnement.
Sur la base de ce que nous savons, les hallucinations juridiques n'ont pas été résolues. La profession juridique devrait se tourner vers des analyses comparatives publiques et des évaluations rigoureuses des outils d'IA.
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
ChatGPT : un avocat Canadien réprimandé pour avoir cité des cas de jurisprudences inventés par le chatbot IA d'OpenAI dans un litige de garde d'enfants
Stanford présente les principales conclusions de son nouveau rapport annuel AI Index et indique notamment que l'IA surpasse l'homme pour certaines tâches, mais pas pour toutes
Il vaut mieux appeler GPT qu'un avocat, les grands modèles de langage démontrent une grande précision, des temps de révision réduits et des économies jusqu'à 100% de coûts par rapport aux avocats
Partager