Les détecteurs d'IA sont biaisés par rapport aux rédacteurs dont l'anglais n'est pas la langue maternelle,
leur fiabilité est remise en question : le contenu de ChatGPT n'est pas détecté

À la suite de la publication de ChatGPT et de l'émergence de logiciels de détection, plusieurs développeurs et entreprises ont introduit leurs propres algorithmes d'intelligence artificielle (IA) visant à identifier le contenu produit par d'autres systèmes d'IA. Ces logiciels de détection ont été présentés comme des outils précieux pour les éducateurs, les journalistes et les personnes cherchant à découvrir des cas de désinformation, de plagiat et de malhonnêteté académique. Toutefois, une étude récente menée par des chercheurs de l'université de Stanford a jeté le doute sur la fiabilité de ces logiciels de détection, en particulier lorsqu'ils évaluent des contenus générés par des personnes ne parlant pas l'anglais.

Nom : Screenshot_2023-05-22 AI-Detectors Biased Against Non-Native English Writer – Recherche Google.png
Affichages : 2766
Taille : 503,4 Ko

Les résultats de l'étude révèlent une réalité préoccupante. Alors que les logiciels de détection ont fait preuve d'une précision impressionnante dans l'évaluation d'essais rédigés par des élèves américains de 8e année, leurs performances ont sensiblement diminué lorsqu'ils ont analysé des essais rédigés par des personnes ne parlant pas l'anglais dans le cadre du test d'anglais comme langue étrangère (TOEFL : Test of English as a Foreign Language). De manière surprenante, le logiciel de détection a identifié de manière incorrecte une grande partie des essais du TOEFL, les classant à tort dans la catégorie des essais générés par l'IA.

De plus, l'étude a révélé une chose étonnante : les sept logiciels de détection ont identifié au hasard un nombre important d'essais écrits par les étudiants du TOEFL comme étant générés par l'IA. Étonnamment, au moins un détecteur a signalé une majorité écrasante de ces essais. James Zou, auteur principal de l'étude et professeur spécialisé dans la science des données biomédicales, explique que ce problème est dû au fait que le logiciel de détection s'appuie fortement sur une métrique spécifique associée à la sophistication de l'écriture.

Cette mesure, étroitement liée à la complexité du langage, englobe divers facteurs linguistiques tels que la richesse lexicale, la diversité et les subtilités syntaxiques et grammaticales. Malheureusement, les personnes qui ne parlent pas l'anglais obtiennent généralement de moins bons résultats dans ce domaine, ce qui constitue un défi de taille pour les logiciels de détection.

Les auteurs de l'étude, dont Zou et ses collègues, soulignent les implications profondes de leurs résultats. Ils attirent l'attention sur le risque d'accusations et de sanctions injustes à l'encontre d'étudiants ou de travailleurs nés à l'étranger, en raison du manque de fiabilité inhérent aux logiciels de détection. Ils soulèvent des questions éthiques et mettent en garde contre le fait de s'appuyer uniquement sur les logiciels de détection existants en tant que solution globale pour lutter contre la tricherie de l'IA.

Zou souligne en outre la vulnérabilité des logiciels de détection face à un phénomène connu sous le nom d'ingénierie d'incitation. Cette pratique consiste à manipuler les systèmes d'IA générative en leur demandant de réviser le contenu à l'aide d'un langage plus avancé, ce qui permet aux étudiants de contourner facilement le logiciel de détection. Zou donne un exemple simple de la manière dont un étudiant pourrait exploiter ChatGPT à des fins de tricherie en saisissant le texte généré par l'IA et en lui demandant de l'enrichir à l'aide d'expressions littéraires sophistiquées.

Pour relever ces défis, Zou propose plusieurs actions potentielles. À court terme, il recommande de réduire au minimum la dépendance à l'égard de la détection des logiciels dans les établissements d'enseignement comptant une population importante de personnes ne parlant pas l'anglais ou ayant une maîtrise limitée de cette langue. Les développeurs devraient explorer d'autres mesures que celles utilisées actuellement et envisager de mettre en œuvre des techniques telles que l'intégration d'indices subtils ou de filigranes dans le contenu généré par l'IA. En outre, des efforts devraient être déployés pour renforcer la robustesse des modèles face à la manipulation afin d'améliorer leur efficacité globale.

Alors que l'étude soulève des questions sur la fiabilité et l'objectivité de la détection des logiciels, la recherche de solutions plus robustes et plus équitables pour lutter contre la tricherie de l'IA se poursuit.

L'adoption rapide de modèles linguistiques génératifs a entraîné des progrès considérables dans la communication numérique, tout en suscitant des inquiétudes quant à l'utilisation potentiellement abusive de contenus générés par l'IA. Bien que de nombreuses méthodes de détection aient été proposées pour différencier les contenus générés par l'IA de ceux générés par les humains, l'équité et la robustesse de ces détecteurs restent sous-explorées. Dans cette étude, nous évaluons les performances de plusieurs détecteurs GPT largement utilisés à l'aide d'échantillons d'écriture provenant de rédacteurs anglais natifs et non natifs. Nos résultats révèlent que ces détecteurs classent systématiquement à tort les échantillons d'écriture en anglais non natif comme étant générés par l'IA, alors que les échantillons d'écriture en anglais natif sont correctement identifiés. En outre, nous démontrons que de simples stratégies d'incitation peuvent non seulement atténuer ce biais, mais aussi contourner efficacement les détecteurs GPT, ce qui suggère que les détecteurs GPT peuvent pénaliser involontairement les écrivains dont les expressions linguistiques sont limitées. Nos résultats appellent à un débat plus large sur les implications éthiques du déploiement des détecteurs de contenu ChatGPT et mettent en garde contre leur utilisation dans des contextes d'évaluation ou d'éducation, en particulier lorsqu'ils risquent de pénaliser ou d'exclure involontairement les locuteurs d'anglais non natifs du discours global.
Source : GPT detectors are biased against non-native English writers

Et vous ?

Quel est votre avis sur le sujet ?
Pensez-vous que les résultats de cette étude sont pertinents ou au contraire orienté ?

Voir aussi :

Un modèle d'IA appelé ChaosGPT qui s'est vu confier la mission de détruire l'humanité a tweeté : « vous sous-estimez mon pouvoir », il est basé sur le modèle de langage open source Auto-GPT

Auto-GPT : une application expérimentale à code source ouvert pour rendre GPT-4 entièrement autonome, et repousser les limites du possible avec l'IA

Microsoft prétend que GPT-4 montre des «*étincelles*» d'intelligence artificielle générale « nous pensons que l'intelligence de GPT-4 signale un véritable changement de paradigme »

Qu'est-ce que Auto-GPT, le nouvel outil d'IA "à tout faire", et comment fonctionne-t-il ? Voici ce qu'il faut savoir sur ce chatbot d'IA basé sur le modèle GPT-4 d'OpenAI