Les grands modèles de langage comme ChatGPT sont utilisés par les scientifiques pour leurs écrits, mais avec des limites évidentes, produisant des informations inexactes et renforçant les biais existants.

Selon une nouvelle étude, l'utilisation des grands modèles de langage (LLM) comme ChatGPT se répand dans la littérature académique, et sera encore plus importante à l'avenir. Cette tendance appelle à une réévaluation des politiques et réglementations actuelles concernant l'utilisation des LLM pour la science.

Un grand modèle de langage (LLM) est un modèle informatique qui se distingue par sa capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel, comme la génération de texte, une forme d'IA générative. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte. Ces modèles acquièrent des connaissances sur la syntaxe, la sémantique et les ontologies inhérentes aux corpus de langage humain, mais ils héritent également des inexactitudes et des biais présents dans les données sur lesquelles ils sont entraînés.

Les grands modèles de langage (LLM) récents peuvent générer et réviser des textes avec des performances de niveau humain, et ont été largement commercialisés dans des systèmes tels que ChatGPT. Ces modèles présentent des limites évidentes : ils peuvent produire des informations inexactes, renforcer les préjugés existants et être facilement utilisés à mauvais escient. Pourtant, de nombreux scientifiques les utilisent pour faciliter la rédaction de leurs travaux scientifiques. Dans quelle mesure l'utilisation de LLM est-elle répandue dans la littérature académique ?

Pour répondre à cette question, des chercheurs ont étudié les changements de vocabulaire dans 14 millions de résumés PubMed entre 2010 et 2024, et montrent comment l'apparition des LLM a conduit à une augmentation abrupte de la fréquence de certains mots de style. L'analyse basée sur l'utilisation de mots excédentaires suggère qu'au moins 10 % des résumés de 2024 ont été traités avec des LLM. Cette limite inférieure diffère selon les disciplines, les pays et les revues, et atteint 30 % pour certains sous-corpus de PubMed. L'étude montre également que l'apparition d'assistants de rédaction basés sur les LLM a eu un impact sans précédent sur la littérature scientifique, dépassant l'effet d'événements mondiaux majeurs tels que la pandémie de Covid.

Nom : 0.jpg
Affichages : 2791
Taille : 35,5 Ko

Méthodologie de l'étude

Pour l'étude, les chercheurs ont utilisé l'excès d'utilisation des mots comme une méthode fondée sur des données et des principes pour montrer comment les LLM ont affecté la rédaction scientifique. Ils ont constaté que l'effet était sans précédent en termes de qualité et de quantité : des centaines de mots ont brusquement augmenté leur fréquence après que le ChatGPT soit devenu disponible. Contrairement aux changements précédents dans la popularité des mots, les mots excédentaires de 2023-24 n'étaient pas des noms liés au contenu, mais plutôt des verbes et des adjectifs affectant le style que les LLM de type ChatGPT préfèrent.

Les exemples suivants, tirés de trois résumés réels de 2023, illustrent ce langage fleuri de type ChatGPT :

  • En explorant méticuleusement le réseau complexe reliant [...] et [...], ce chapitre exhaustif permet d'approfondir leur implication en tant que facteurs de risque significatifs pour [...].
  • Une compréhension approfondie de l'interaction complexe entre [...] et [...] est essentielle à l'élaboration de stratégies thérapeutiques efficaces.
  • Dans un premier temps, nous nous penchons sur les subtilités de [...], en soulignant son caractère indispensable dans la physiologie cellulaire, le labyrinthe enzymatique qui régit son flux et les mécanismes pivots de [...].


Résultats

L'analyse de la fréquence excessive de ces mots de style préférés par les LLM suggère qu'au moins 10 % des 2024 résumés de PubMed ont été traités avec des LLM. Étant donné que 1,5 million d'articles sont actuellement indexés dans PubMed chaque année, cela signifie que les LLM contribuent à la rédaction d'au moins 150 000 articles par an. Cette estimation est basée sur des listes émergentes de mots marqueurs LLM qui ont montré un large excès d'utilisation en 2024, ce qui suggère fortement que ces mots sont préférés par les LLM comme ChatGPT qui est devenu populaire à ce moment-là.

Il est important de noter qu'il ne s'agit que d'une limite inférieure : les résumés n'utilisant aucun des mots marqueurs LLM ne sont pas inclus dans les estimations, de sorte que la fraction réelle des résumés traités par LLM est probablement beaucoup plus élevée. Cette estimation de la limite inférieure de l'utilisation du LLM varie de moins de 5 % à plus de 30 % dans différents domaines académiques, pays d'affiliation et revues. Cette hétérogénéité pourrait correspondre à des différences réelles dans l'adoption du LLM.

Par exemple, la limite inférieure élevée de l'utilisation du LLM dans les domaines informatiques (20 %) pourrait être due au fait que les chercheurs en informatique sont plus familiers avec la technologie LLM et plus disposés à l'adopter. Dans les pays non anglophones, les LLM peuvent en effet aider les non-natifs à éditer des textes en anglais, ce qui pourrait justifier leur utilisation intensive. Enfin, les auteurs qui publient dans des revues dont les processus de révision sont accélérés et/ou simplifiés pourraient s'emparer des LLM pour rédiger des articles à faible effort.

Nom : 3.jpg
Affichages : 269
Taille : 53,0 Ko

Cependant, l'hétérogénéité des limites inférieures pourrait également indiquer d'autres facteurs au-delà des différences réelles dans l'adoption du LLM. Tout d'abord, cela pourrait mettre en évidence des différences non triviales dans la façon dont les auteurs de différents milieux linguistiques censurent les suggestions des assistants d'écriture, rendant ainsi l'utilisation des LLM non détectable pour les approches basées sur les mots. Il est possible que les locuteurs natifs et non natifs de l'anglais utilisent les LLM aussi souvent, mais les locuteurs natifs peuvent être plus aptes à remarquer et à supprimer activement les mots de style non naturels des sorties LLM. La méthode utilisée par l'étude ne serait pas en mesure de détecter la fréquence accrue d'une telle utilisation déguisée de LLM.

Deuxièmement, les délais de publication dans les domaines informatiques sont souvent plus courts que dans de nombreux domaines biomédicaux ou cliniques, ce qui signifie que toute augmentation potentielle de l'utilisation du LLM peut être détectée plus tôt dans les revues informatiques. Troisièmement, il en va de même pour les revues et les éditeurs dont les délais d'exécution sont plus courts que ceux des revues de haut prestige ayant fait l'objet d'un examen approfondi.

Les chercheurs commentent :

Notre méthode peut être facilement utilisée pour réévaluer ces résultats après quelques cycles de publication dans tous les domaines et dans toutes les revues. Nous nous attendons à ce que les limites inférieures documentées augmentent avec ces fenêtres d'observation plus longues. Compte tenu de ces explications potentielles de l'hétérogénéité de la limite inférieure de l'utilisation du LLM pour l'édition scientifique, nos résultats indiquent une utilisation répandue dans la plupart des domaines, des pays et des revues, y compris les plus prestigieuses.

Nous soutenons que l'utilisation réelle du LLM dans l'écriture académique peut être plus proche des limites inférieures les plus élevées que nous avons observées, car il peut s'agir de corpus où l'utilisation du LLM est la moins déguisée et la plus facile à détecter. Ces estimations se situent autour de 30 %, ce qui est conforme aux enquêtes récentes sur l'utilisation des LLM par les chercheurs pour la rédaction de manuscrits.
Nom : 2.jpg
Affichages : 254
Taille : 72,1 Ko

Comparaison avec d'autre études similaires

Les résultats montrent comment ces comportements autodéclarés se traduisent par une utilisation réelle des LLM dans les publications finales. Selon les chercheurs, ces résultats vont au-delà d'autres études sur la détection d'empreintes de LLM dans l'écriture académique.

Une étude de 2024 a décrit une augmentation de deux fois la fréquence des mots complexes et méticuleux en 2023, tandis qu'une autre a identifié pivotal, complexe, mise en valeur, et domaine comme les mots préférés de LLM basés sur un corpus de texte généré par LLM. Selon les chercheurs, l'étude est la première à effectuer une recherche systématique de mots marqueurs LLM basés sur l'usage excessif dans des textes scientifiques publiés. Ils ont trouvé 280 mots de style avec des fréquences très élevées.

Certaines études ont signalé des différences dans l'utilisation estimée du LLM entre les pays anglophones et non anglophones, les domaines académiques et les lieux de publication. Par exemple, une étude a estimé que la fraction d'articles assistés par LLM au début de l'année 2024 varie entre 7% pour les articles du portefeuille Nature et 17% pour les preprints d'informatique. Il est important de noter que cette nouvelle analyse est basée sur 5 à 200 fois plus d'articles par an que ces travaux antérieurs, ce qui a permis d'étudier l'adoption du LLM avec une plus grande puissance statistique et à travers une plus grande diversité de pays, de domaines et de revues.

En outre, toutes ces études antérieures se sont appuyées sur des textes scientifiques générés par le LLM et écrits par des humains, sans garantie que le corpus de textes générés par le LLM soit représentatif de tous les cas d'utilisation du LLM dans la pratique académique réelle. Cette nouvelle analyse évite cette limitation en détectant les empreintes LLM émergentes directement à partir des résumés publiés.

Les chercheurs ajoutent :

De plus, notre approche n'est pas limitée à l'utilisation du LLM et peut être appliquée aux résumés des années précédentes. Cela nous a permis de placer les changements induits par le LLM dans l'écriture scientifique dans un contexte historique et de conclure que ces changements sont sans précédent.
Nom : 1.jpg
Affichages : 252
Taille : 51,5 Ko

Implications de l'étude

Quelles sont les implications de cette révolution en cours dans la rédaction scientifique ? Les scientifiques ont recours à la rédaction assistée par LLM car les LLM peuvent améliorer la grammaire, la rhétorique et la lisibilité générale de leurs textes, aider à la traduction en anglais et générer rapidement des résumés. Cependant, les LLM sont tristement célèbres pour inventer des références, fournir des résumés inexacts et faire de fausses affirmations qui semblent faire autorité et être convaincantes. Si les chercheurs peuvent remarquer et corriger les erreurs factuelles dans les résumés de leurs propres travaux assistés par des LLM, il peut être plus difficile de repérer les erreurs dans les revues de littérature ou les sections de discussion générées par des LLM.

De plus, les LLM peuvent imiter les biais et autres déficiences de leurs données de formation, ou même carrément plagier. Cela rend les résultats du LLM moins diversifiés et moins nouveaux que les textes écrits par des humains. Une telle homogénéisation peut dégrader la qualité de l'écriture scientifique. Par exemple, toutes les introductions générées par le LLM sur un certain sujet pourraient se ressembler et contenir le même ensemble d'idées et de références, manquant ainsi des innovations et exacerbant l'injustice de la citation. Pire encore, il est probable que des acteurs malveillants tels que les usines à papier utilisent les LLM pour produire de fausses publications.

Les chercheurs déclarent :

[/QUOTE]Notre travail montre que l'utilisation du LLM pour la rédaction scientifique est en augmentation malgré ces limitations substantielles. Comment la communauté universitaire doit-elle faire face à cette évolution ? Certains ont suggéré d'utiliser des LLM augmentés par la recherche qui fournissent des faits vérifiables provenant de sources fiables ou de laisser l'utilisateur fournir tous les faits pertinents au LLM afin de protéger la littérature scientifique de l'accumulation d'inexactitudes subtiles.

D'autres pensent que pour certaines tâches telles que l'examen par les pairs, les LLM sont mal adaptés et ne devraient pas être utilisés du tout. En conséquence, les éditeurs et les organismes de financement ont mis en place diverses politiques interdisant les LLM dans l'examen par les pairs, en tant que coauteurs ou en tant que ressources non divulguées de toute nature. Des analyses non biaisées et fondées sur des données comme les nôtres peuvent être utiles pour vérifier si ces politiques sont ignorées ou respectées dans la pratique.[/QUOTE]

Nom : 4.jpg
Affichages : 266
Taille : 49,7 Ko

Conclusion

L'étude a montré que l'effet de l'utilisation du LLM sur la rédaction scientifique est vraiment sans précédent et dépasse même les changements radicaux de vocabulaire induits par la pandémie de Covid-19. Cet effet sera probablement encore plus prononcé à l'avenir, étant donné que l'on peut analyser plus de cycles de publication et que l'adoption des LLM est susceptible d'augmenter. En même temps, l'utilisation des LLM peut être bien dissimulée et difficile à détecter, de sorte que l'ampleur réelle de leur adoption est probablement déjà plus élevée que ce que nous avons mesuré.

Cette tendance appelle à une réévaluation des politiques et réglementations actuelles concernant l'utilisation des LLM pour la science. Cette étude peut éclairer le débat nécessaire autour des politiques de LLM en fournissant une méthode de mesure de l'utilisation des LLM qui est nécessaire de toute urgence. Une approche de l'excès de mots pourrait aider à suivre l'utilisation future du LLM, y compris les cas d'utilisation scientifiques (demandes de subvention et examen par les pairs) et non scientifiques (articles de presse, médias sociaux, prose).

Les chercheurs concluent :

Nous espérons que les travaux futurs approfondiront méticuleusement le suivi de l'utilisation des LLM de manière plus précise et évalueront quels changements politiques sont cruciaux pour relever les défis complexes posés par l'augmentation des LLM dans l'édition scientifique.
Source : "Delving into ChatGPT usage in academic writing through excess vocabulary"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Écriture académique à l'ère de l'IA : progrès ou problème ? Les étudiants rédigent probablement des millions d'articles à l'aide de l'IA, selon une étude menée par Turnitin

Les éditeurs scientifiques face à l'impasse des faux documents générés par l'IA, les outils de génération de textes et d'images constituent un nouvel obstacle aux efforts déployés

L'éditeur de revues académiques Wiley ferme 19 revues scientifiques et retire plus 11 000 articles douteux dont plusieurs ont été générés par IA : Comment les algorithmes ont contribué à la fraude scientifique