Quelle est l’efficacité réelle des détecteurs de contenu IA ?

**Jade Emy** · 10/01/2024, 20h30

Qui a utilisé ChatGPT, Claude, ou encore Bard pour ses créations ? Quelle est l’efficacité réelle des détecteurs de contenu IA ? Les réponses dans un sujet de recherche universitaire.

Un sujet de recherche universitaire étudie l'efficacité des outils de détection des contenus générés par l'IA. Dans un article, il présente l'idée de la détection directe de l'origine et évalue si les systèmes d'IA générative peuvent reconnaître leur production et la distinguer des textes écrits par des humains.

Depuis que ChatGPT a rendu la création de contenu écrit beaucoup plus facile qu'elle ne l'aurait été autrement, une multitude de détecteurs de contenu d'IA ont vu le jour. Nombreux sont ceux qui ont commencé à utiliser ces détecteurs parce que c'est le genre de chose qui pourrait leur permettre de repérer le contenu généré par l'IA. Mais quelle est l'efficacité de ces détecteurs de contenu ? Une étude menée par le département d'informatique de la Southern Methodist University a tenté d'apporter des réponses à cette question.

Les chercheurs ont analysé Claude, Bard et ChatGPT afin de déterminer lesquels étaient les plus faciles à détecter. Ceci étant dit, il est important de noter que Claude fournit un contenu qui échappe en grande partie à la détection. Quant à ChatGPT et Bard, ils ont mieux détecté leur propre contenu, mais ils n'ont pas été aussi bons que Claude lorsqu'il s'est agi d'éviter la détection par des outils tiers.

Les détecteurs de contenu d'IA recherchent des artefacts ou, en d'autres termes, des signes indiquant qu'un élément de contenu a été créé à l'aide de grands modèles de langage. Chaque LLM s'accompagne d'un ensemble unique d'artefacts, qui peuvent tous contribuer à les rendre plus ou moins difficiles à repérer une fois que tous les éléments ont été pris en compte.

Cette étude a consisté à générer un contenu de 250 mots pour une cinquantaine de sujets. Les trois modèles d'IA analysés ont ensuite été invités à paraphraser ce contenu, et cinquante essais générés par des humains ont également été pris en compte dans l'équation. Les modèles d'IA ont ensuite été soumis à un processus d'auto-détection à l'aide d'un système d'incitation de type "Zero Shot".

Nom : 1.png
Affichages : 3441
Taille : 31,3 Ko

Bard a obtenu le plus haut niveau de précision lors de la détection de son propre contenu, suivi de ChatGPT et de Claude en dernière position. Quant à ZeroGPT, un détecteur de contenu proposé par Open AI, il a détecté le contenu de Bard dans environ 75 % des cas. Il a été légèrement moins efficace pour détecter le contenu généré par GPT, et Claude a réussi à lui faire croire que le contenu n'était pas généré par l'IA le plus souvent parmi tous les modèles.

Une chose qu'il faut mentionner ici est que l'autodétection de ChatGPT a oscillé autour de 50 %. Cela semble indiquer qu'elle a le même taux de précision que la devinette, qui a été considérée comme un échec dans le contexte de cette étude. L'autodétection du contenu paraphrasé a donné des résultats encore plus intéressants. Claude a enregistré un score d'autodétection beaucoup plus élevé, et il a également obtenu le score de précision le plus bas lorsqu'il a été détecté par ZeroGPT.

Au final, les chercheurs ont conclu que ChatGPT est capable de détecter le contenu qu'il a contribué à générer, mais qu'il semble moins efficace pour enregistrer le contenu paraphrasé. Bard a obtenu des résultats raisonnables dans les deux cas, mais chacun de ces modèles a été largement dépassé par Claude.

Claude a été capable de surpasser non seulement les autres modèles d'IA, mais aussi sa propre détection. Cela semble indiquer qu'il avait le moins d'artefacts pouvant être utilisés pour déterminer l'origine de son contenu. D'autres études seront nécessaires pour obtenir des preuves supplémentaires, mais tout porte à croire que Claude est le générateur de texte le plus fiable de tous.

Nom : 0.PNG
Affichages : 1489
Taille : 22,0 Ko

Autodétection du contenu d'IA pour les grands modèles de langage basés sur les transformateurs

Résumé

L'utilisation d'outils d'intelligence artificielle générative (IA) basés sur de grands modèles de langage, tels que ChatGPT, Bard et Claude, pour la génération de textes a de nombreuses applications passionnantes avec un potentiel de gains de productivité phénoménaux. L'une des questions qui se posent est celle de l'attribution de la paternité du texte lors de l'utilisation d'outils d'intelligence artificielle. Cette question est particulièrement importante dans un cadre universitaire, où l'utilisation inappropriée d'outils d'IA générative peut entraver l'apprentissage des étudiants ou étouffer la recherche en créant une grande quantité de travaux dérivés générés automatiquement.

Les systèmes existants de détection du plagiat peuvent retracer la source du texte soumis, mais ne sont pas encore équipés de méthodes permettant de détecter avec précision les textes générés par l'IA. Cet article présente l'idée de la détection directe de l'origine et évalue si les systèmes d'IA générative peuvent reconnaître leur production et la distinguer des textes écrits par des humains. Nous expliquons pourquoi les modèles actuels basés sur les transformateurs peuvent être capables d'autodétecter leur propre texte généré et nous réalisons une petite étude empirique utilisant l'apprentissage à partir de zéro pour vérifier si c'est le cas. Les résultats révèlent des capacités variables des systèmes d'IA à identifier leur texte généré. Le modèle Bard de Google présente la plus grande capacité d'autodétection avec une précision de 94 %, suivi par ChatGPT d'OpenAI avec 83 %. En revanche, le modèle Claude d'Anthropic semble incapable de s'autodétecter.

Conclusion

La détection des contenus générés par l'IA, qui comprend l'attribution correcte de la paternité et la résolution des questions de rémunération du créateur du contenu utilisé pour former ces modèles, devient de plus en plus importante pour de nombreuses applications. Dans le monde universitaire en particulier, l'IA générative a de nombreuses utilisations qui peuvent améliorer l'apprentissage en générant des explications pour les étudiants, mais elle peut aussi nuire à l'apprentissage en permettant aux étudiants de laisser l'IA résoudre leurs exercices.

La contribution unique de cette étude réside dans l'introduction de l'autodétection, un pas en avant pour relever les défis posés par les systèmes d'IA. Nous décrivons pourquoi les systèmes à base de transformateurs devraient avoir la capacité de s'autodétecter et nous démontrons cette capacité dans une première petite étude. Nous identifions la principale limitation de l'autodétection comme étant l'indisponibilité de l'invite d'origine.

La première étude présentée est très limitée. Voici quelques sujets à explorer dans de futures études.

Utiliser un ensemble de données plus important avec des textes générés plus diversifiés.
Explorer davantage de modèles d'IA génératifs différents.
Comparer les performances de l'autodétection avec les meilleurs détecteurs actuels.
Étudier l'influence de l'ingénierie de l'invite sur l'autodétection. Par exemple, utiliser des messages courts pour l'autodétection.

Source : "AI Content Self-Detection for Transformer-based Large Language Models", Southern Methodist University

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Lutte pour une science authentique : Un système de détection de texte généré par l'IA place la barre plus haut, d'après une recherche de l'Université du Kansas

Une étude affirme que les internautes ne parviennent à détecter avec précision les textes générés par l'IA que dans 50 % des cas, et une autre estime que les outils de détection ne sont pas fiables

Les détecteurs de contenu GPTZero et Turnitin rivalisent pour la suprématie de l'IA dans le milieu académique, afin de répondre à l'essor des générateurs de texte d'IA générative, selon Similarweb

**Stéphane le calme** · 13/06/2024, 11h01

Quand les détecteurs d’IA se trompent : les rédacteurs perdent leur emploi parce qu'on les accuse à tort d'utiliser l'IA,
soulevant des questions sur la fiabilité de ces technologies et leurs implications pour l’emploi

La distinction entre le contenu créé par l’homme et celui généré par l’IA devient floue. Les détecteurs d’IA, conçus pour identifier les textes générés par l’IA, sont devenus des outils controversés. Des rédacteurs se retrouvent licenciés suite à des accusations erronées d’utilisation d’IA, soulevant des questions sur la fiabilité de ces technologies et leurs implications pour l’emploi.

L’IA « vole » déjà le travail des rédacteurs, et maintenant, ils perdent également leurs emplois à cause de fausses accusations d’utilisation d’IA. Les détecteurs d’IA, bien qu’ils prétendent avoir des taux de précision élevés, sont souvent moins fiables que ce que promettent leurs créateurs. Les experts, les études et les initiés de l’industrie soutiennent que ces outils sont loin d’être aussi fiables qu’annoncé.

Kimberly Gasuras n'utilise pas l'IA. « Je n'en ai pas besoin », a-t-elle déclaré. « J'ai été journaliste pendant 24 ans. Comment pensez-vous que j'ai fait tout ce travail ? » Cette logique n'a pas suffi à sauver son emploi.

En tant que journaliste locale à Bucyrus, dans l'Ohio, Gasuras a recours à des activités annexes pour payer ses factures. Pendant un certain temps, elle a gagné beaucoup d'argent sur une plateforme de rédaction en freelance appelée WritersAccess, où elle rédigeait des blogs et d'autres contenus pour des petites et moyennes entreprises. Mais au milieu de l'année 2023, ses revenus ont chuté car certains clients ont opté pour ChatGPT pour leurs besoins en rédaction. C'était déjà une période difficile. C'est alors que le courriel est arrivé.

« Je n'ai reçu qu'un seul avertissement », explique Gasuras. « J'ai reçu ce message disant qu'ils avaient signalé mon travail comme étant effectué à l'aide d'un outil IA appelé "Originality" ». Elle est restée abasourdie. Gasuras a écrit pour défendre son innocence, mais elle n'a jamais reçu de réponse. Originality coûte de l'argent, mais Gasuras a commencé à soumettre son travail à d'autres détecteurs d'IA avant de l'envoyer pour s'assurer qu'elle ne se faisait pas épingler par erreur. Quelques mois plus tard, WritersAccess l'a quand même exclue de la plateforme. « Ils m'ont dit que mon compte avait été suspendu en raison d'une utilisation excessive de l'IA. Je n'arrivais pas à y croire », a déclaré Gasuras.

La recherche effrénée de fraudeurs

Lorsque ChatGPT a mis le feu aux poudres il y a un an et demi, il a suscité une recherche fébrile de moyens d'attraper les personnes qui tentent de faire passer un texte d'IA pour leur propre écriture. Une multitude de startups ont lancé des outils de détection de l'IA pour combler le vide, avec des noms tels que Copyleaks, GPTZero, Originality.AI et Winston AI. Il s'agit d'une activité rentable dans un paysage plein de croquemitaines de l'IA.

Ces entreprises annoncent la tranquillité d'esprit, un moyen de reprendre le contrôle grâce à la « preuve » et à la « responsabilité ». Certaines annoncent des taux de précision allant jusqu'à 99,98 %. Mais un nombre croissant d'experts, d'études et d'initiés du secteur affirment que ces outils sont bien moins fiables que ne le promettent leurs fabricants. Il ne fait aucun doute que les détecteurs d'IA commettent souvent des erreurs, et que des passants innocents se retrouvent pris entre deux feux. D'innombrables étudiants ont été accusés de plagiat par l'IA, mais une épidémie plus silencieuse sévit dans le monde professionnel. Certains contrats d'écriture se tarissent grâce aux chatbots. Tandis que les gens se disputent un champ de travail qui se raréfie, les rédacteurs perdent leur emploi à cause des fausses accusations des détecteurs d'IA.

« Cette technologie ne fonctionne pas de la manière dont les gens l'annoncent », a déclaré Bars Juhasz, cofondateur d'Undetectable AI, qui crée des outils pour aider les gens à humaniser les textes d'IA afin de les faire passer inaperçus dans les logiciels de détection. « Nous sommes très inquiets quant à la fiabilité du processus de formation utilisé par ces détecteurs d'IA. Ils prétendent avoir un taux de précision de 99 % et, d'après notre travail, je pense que c'est impossible. Mais même si c'est vrai, cela signifie que pour 100 personnes, il y aura un faux drapeau. Nous parlons ici des moyens de subsistance et de la réputation des gens ».

Les entreprises spécialisées dans la détection de l'IA « vendent de l'huile de serpent »

En général, les détecteurs d'IA fonctionnent en repérant les signes distinctifs de l'écriture de l'IA, tels qu'une grammaire et une ponctuation parfaites. En fait, l'un des moyens les plus simples de faire signaler son travail est d'utiliser Grammarly, un outil qui vérifie les fautes d'orthographe et de grammaire. Il suggère même des façons de réécrire les phrases pour plus de clarté en utilisant, vous l'aurez deviné, l'intelligence artificielle. Pour ne rien arranger, des médias se sont entretenus avec des rédacteurs qui ont déclaré avoir été licenciés par des plateformes qui leur imposaient l'utilisation de Grammarly.

Les entreprises spécialisées dans la détection de l'IA « vendent de l'huile de serpent », a déclaré Debora Weber-Wulff, professeur à l'université des sciences appliquées pour l'ingénierie et l'économie de Berlin, coauteur d'un article récent sur l'efficacité de la détection de l'IA. Selon Debora Weber-Wulff, les recherches montrent que les détecteurs d'IA sont imprécis, peu fiables et faciles à tromper. « Les gens veulent croire qu'il existe un logiciel magique qui résout leurs problèmes », a-t-elle déclaré. Mais « les logiciels ne peuvent pas résoudre les problèmes sociaux. Nous devons trouver d'autres solutions ».

Les entreprises qui fabriquent des détecteurs d'IA affirment qu'ils sont un outil nécessaire mais imparfait dans un monde inondé de textes générés par des robots. Il existe une demande importante pour ces services, qu'ils soient efficaces ou non.

Alex Cui, directeur technique de la société GPTZero, spécialisée dans la détection de l'IA, estime que les détecteurs présentent des lacunes importantes, mais que les avantages l'emportent sur les inconvénients. « Nous voyons un avenir où, si rien ne change, l'internet sera de plus en plus dicté par l'IA, qu'il s'agisse d'actualités, d'articles évalués par des pairs ou de marketing. Vous ne savez même pas si la personne à qui vous parlez sur les médias sociaux est réelle », a déclaré Cui. « Nous avons besoin d'une solution pour confirmer les connaissances en masse et déterminer si le contenu est de haute qualité, authentique et d'origine légitime ».

Nom : acc.png
Affichages : 5513
Taille : 16,2 Ko

Un mal nécessaire ?

Mark, un autre rédacteur publicitaire basé en Ohio, explique qu'il a dû accepter un travail d'entretien dans un magasin local après qu'un détecteur d'IA lui a fait perdre son emploi. « J'ai reçu un courriel m'informant que mon article le plus récent avait obtenu une probabilité de 95 % de génération d'IA », raconte Mark. « J'étais sous le choc. J'ai trouvé ridicule qu'ils m'accusent après avoir travaillé ensemble pendant trois ans, bien avant que ChatGPT ne soit disponible ».

Il a essayé de se défendre. Mark a envoyé à son client une copie du document Google dans lequel il avait rédigé l'article, avec des horodatages prouvant qu'il avait écrit le document à la main. Cela n'a pas suffi. La relation de Mark avec la plateforme de rédaction s'est effondrée. Selon lui, la perte de son emploi lui a coûté 90 % de ses revenus.

« Nous entendons ces histoires plus souvent que nous ne le souhaiterions, et nous comprenons la douleur que les faux positifs causent aux écrivains lorsque le travail dans lequel ils se sont investis corps et âme est accusé à tort », a déclaré Jonathan Gillham, PDG d'Originality.AI. « Nous avons l'impression de construire un outil pour aider les écrivains, mais nous savons qu'il y a parfois des conséquences ».

Selon Jonathan Gillham, le problème ne se limite pas à aider les rédacteurs ou à les responsabiliser : « Google s'attaque de manière agressive au spam de l'IA », a-t-il déclaré. « Nous avons entendu des entreprises dont le site entier a été désindexé par Google dire qu'elles ne savaient même pas que leurs rédacteurs utilisaient l'IA ».

Il est vrai que l'internet est inondé de fermes de contenu à faible effort qui produisent des articles d'IA de mauvaise qualité dans le but de jouer avec les résultats de recherche, d'obtenir des clics et de gagner de l'argent grâce à la publicité. Google prend des mesures sévères à l'encontre de ces sites, ce qui amène certaines entreprises à penser que leurs sites web seront déclassés si Google détecte une quelconque écriture d'IA. C'est un problème pour les entreprises basées sur le web, et c'est de plus en plus l'argument de vente numéro un des détecteurs d'IA. Originality se présente comme un moyen de « préparer votre site à l'avenir sur Google », en tête de la liste des avantages figurant sur sa page d'accueil.

Un porte-parole de Google a déclaré qu'il s'agissait d'une interprétation totalement erronée des règles de l'entreprise. Google, une entreprise qui fournit de l'IA, a déclaré qu'elle n'avait aucun problème avec le contenu de l'IA en lui-même. « Il est inexact de dire que Google pénalise les sites web simplement parce qu'ils utilisent du contenu généré par l'IA », a déclaré le porte-parole. « Comme nous l'avons clairement indiqué, les contenus de faible valeur créés à grande échelle pour manipuler les classements dans les moteurs de recherche sont des spams, quelle que soit la manière dont ils sont produits. Nos systèmes automatisés déterminent ce qui apparaît dans les premiers résultats de recherche en se basant sur des signaux qui indiquent si le contenu est utile et de haute qualité ».

Sources : Who is AI Replacing? The Impact of Generative AI on Online Freelancing Platforms, International Journal for Educational Integrity, Originality

Et vous ?

Quelle est votre expérience personnelle avec les détecteurs d’IA ? Avez-vous déjà été confronté à un faux positif ?

Comment les organisations devraient-elles équilibrer l’utilisation des détecteurs d’IA avec le risque d’erreurs et de licenciements injustifiés ?

Quel rôle les rédacteurs et les créateurs de contenu devraient-ils jouer dans le développement et l’évaluation des détecteurs d’IA ?

Quelles sont les conséquences éthiques de l’utilisation des détecteurs d’IA dans les milieux académiques et professionnels ?

Comment pouvons-nous améliorer la transparence et la responsabilité des entreprises qui développent et déploient des détecteurs d’IA ?

Quelles garanties juridiques devraient être mises en place pour protéger les droits des travailleurs face aux technologies de détection d’IA ?

En quoi la culture et la langue influencent-elles l’efficacité des détecteurs d’IA et comment pouvons-nous les rendre plus inclusifs ?

Quelle est l’efficacité réelle des détecteurs de contenu IA ?

Intelligence artificielle

Discussions similaires

Partager

Partager