L'éditeur de revues académiques Wiley ferme 19 revues scientifiques et retire plus 11 000 articles douteux

**Bruno** · 21/03/2024, 14h52

Les chercheurs en IA ont commencé à évaluer leurs pairs avec l'aide de l'IA,
environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des LLM

Les chercheurs en intelligence artificielle ont commencé à utiliser l'assistance de l'IA pour évaluer le travail de leurs pairs. Un groupe de chercheurs provenant de plusieurs institutions de renom a analysé les évaluations par les pairs d'articles soumis à des conférences importantes en intelligence artificielle. Leur étude, motivée par l'essor des grands modèles de langage et la difficulté croissante à distinguer le texte généré par des humains de celui généré par des machines, souligne l'importance de développer des moyens d'évaluer le contenu rédigé par l'IA.

Ils ont constaté que l'utilisation d'adjectifs dans les évaluations peut permettre de distinguer le travail assisté par l'IA de celui rédigé entièrement par des humains. Environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des modèles de langage, selon leurs résultats. Les chercheurs mettent en garde contre le manque de transparence dans l'utilisation de l'IA pour la rédaction scientifique et soulignent les risques d'homogénéisation des retours d'IA, qui pourraient éloigner les évaluations significatives des experts.

Un groupe de chercheurs de l'Université Stanford, des Laboratoires NEC America et de l'UC Santa Barbara a récemment analysé les évaluations par les pairs d'articles soumis à des conférences majeures en IA, notamment ICLR 2024, NeurIPS 2023, CoRL 2023 et EMNLP 2023. Les auteurs - Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland et James Y. Zou - ont présenté leurs résultats dans un article intitulé « Surveillance de contenu modifié par l'IA à grande échelle : une étude de cas sur l'impact de ChatGPT sur les évaluations par les pairs de conférences en IA. »

Ils ont entrepris cette étude en raison de l'intérêt du public et des discussions sur les grands modèles de langage qui ont dominé le discours technique l'année dernière.

Envoyé par Research group

Nous présentons une approche pour estimer la fraction de texte dans un grand corpus qui est susceptible d'être substantiellement modifiée ou produite par un grand modèle de langage (LLM). Notre modèle de vraisemblance maximale exploite des textes de référence rédigés par des experts et générés par l'IA pour examiner avec précision et efficacité l'utilisation réelle des LLM au niveau du corpus. Nous appliquons cette approche à une étude de cas des évaluations par les pairs scientifiques. Nous constatons un changement significatif dans la fréquence des évaluations par les pairs dans les conférences en IA qui ont eu lieu après la sortie de ChatGPT : ICLR 2024, NeurIPS 2023, CoRL 2023 et EMNLP 2023.

Nos résultats suggèrent qu'entre 6,5 % et 16,9 % du texte soumis en tant qu'évaluations par les pairs à ces conférences pourrait avoir été substantiellement modifié par des LLM, c'est-à-dire au-delà de la correction orthographique ou des mises à jour mineures de rédaction. Les circonstances dans lesquelles le texte généré apparaît offrent un aperçu du comportement de l'utilisateur : la fraction estimée de texte généré par LLM est plus élevée dans les évaluations qui rapportent une confiance moindre, qui sont soumises près de la date limite, et provenant de réviseurs moins susceptibles de répondre aux réfutations des auteurs.

Nous observons également des tendances au niveau du corpus dans le texte généré qui peuvent être trop subtiles pour être détectées au niveau individuel, et discutons des implications de telles tendances sur l'évaluation par les pairs. Nous appelons à des travaux interdisciplinaires futurs pour examiner comment l'utilisation des LLM change nos pratiques d'information et de connaissance.

Nom : ll1.jpg
Affichages : 5049
Taille : 98,8 Ko

Changement dans la fréquence des adjectifs dans les évaluations par les pairs de l'ICLR 2024. On constate un changement significatif dans la fréquence de certains tokens dans l'ICLR 2024, avec des adjectifs tels que « louable », « méticuleux » et « complexe » montrant des augmentations de probabilité de 9,8, 34,7 et 11,2 fois dans la survenue dans une phrase.

Générer les données d'entraînement

Les chercheurs ont besoin d'accéder à des données historiques pour estimer P et Q. Plus précisément, ils supposent qu’ils ont accès à une collection de critiques qui sont connues pour ne contenir que du texte rédigé par des humains, ainsi que les questions associées aux critiques et les articles évalués. Ils désignent cette collection de documents sous le nom de corpus humain. Pour générer le corpus IA, chacune des instructions des évaluateurs et des articles associés aux critiques dans le corpus humain doit être soumise à un outil de langage IA (par exemple, ChatGPT), et le LLM doit être incité à générer une critique.

Les instructions peuvent être soumises à plusieurs LLM différents pour générer des données d'entraînement qui sont plus robustes au choix du générateur IA utilisé. Les textes produits par le LLM sont ensuite rassemblés dans le corpus IA. Empiriquement, nous avons constaté que notre cadre présente une robustesse modérée au décalage de distribution des instructions LLM.

Nom : LL2.jpg
Affichages : 1121
Taille : 50,8 Ko

Un aperçu de la méthode. Les chercheurs commencent par générer un corpus de documents avec une paternité connue, qu'elle soit scientifique ou IA. En utilisant ces données historiques, ils peuvent estimer les distributions de textes écrits par des scientifiques et par l'IA, P et Q, et valider la performance de la méthode sur des données retenues. Enfin, ils peuvent utiliser les estimations de P et Q pour estimer la fraction de texte généré par l'IA dans un corpus cible.

Comparaison aux méthodes de détection de pointe de GPT

Les chercheurs ont mené des expériences en utilisant l'approche traditionnelle de classification pour la détection de texte IA. C'est-à-dire, ils ont utilisé deux détecteurs de texte IA disponibles dans le commerce (RADAR et DeepfakeTextDetect) pour classer chaque phrase comme étant générée par l'IA ou par un humain. L’estimation pour α est la fraction de phrases que le classificateur pense être générée par l'IA. Deux classificateurs disponibles dans le commerce prédisent que presque toutes (RADAR) ou aucune (Deepfake) des phrases sont générées par l'IA, quel que soit le niveau α réel.

À l'exception de la méthode basée sur BERT, les prédictions faites par tous les classificateurs restent presque constantes à tous les niveaux α, ce qui conduit à de mauvaises performances pour tous. Cela peut être dû à un décalage de distribution entre les données utilisées pour entraîner le classificateur (probablement des textes généraux collectés sur Internet) et les textes trouvés dans les évaluations de conférences. Bien que les estimations de BERT pour α semblent au moins positivement corrélées avec la valeur α correcte, l'erreur dans l'estimation reste importante par rapport à la grande précision obtenue par notre méthode.

L'utilisation de l'assistance de l'IA pour évaluer le travail de pairs dans le domaine de l'intelligence artificielle représente à la fois une avancée et un défi important. L'étude menée par ce groupe de chercheurs met en lumière plusieurs points cruciaux qui méritent une réflexion approfondie. Tout d'abord, il est louable que ces chercheurs aient entrepris cette analyse pour évaluer l'impact des grands modèles de langage sur les évaluations par les pairs. Cette démarche souligne une prise de conscience de l'évolution des pratiques dans le domaine de la recherche et de l'importance de comprendre comment l'IA influence ces pratiques.

La découverte selon laquelle l'utilisation d'adjectifs peut aider à distinguer le travail assisté par l'IA de celui rédigé entièrement par des humains est intrigante. Cela suggère qu'il existe des moyens potentiels de détecter l'intervention de l'IA dans le processus de rédaction, ce qui pourrait être crucial pour maintenir l'intégrité de la recherche scientifique.

Cependant, la constatation que jusqu'à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des modèles de langage soulève des préoccupations légitimes quant à l'impact de l'IA sur le processus d'évaluation de la recherche. Cette statistique souligne la nécessité urgente d'une transparence accrue dans l'utilisation de l'IA dans la rédaction scientifique.

De plus, la mise en garde contre les risques d'homogénéisation des retours de l'IA est pertinente. Si les évaluations sont de plus en plus influencées par des modèles de langage, cela risque de limiter la diversité des perspectives et des critiques, ce qui est essentiel pour garantir la qualité et l'objectivité du processus d'évaluation par les pairs.

En conclusion, cette étude souligne les défis et les opportunités que représente l'utilisation de l'IA dans l'évaluation de la recherche. Elle met en lumière la nécessité de développer des méthodes pour détecter et réguler l'impact de l'IA tout en maintenant l'intégrité et la qualité du processus d'évaluation par les pairs dans le domaine de l'intelligence artificielle et au-delà.

Source : Group of researchers from Stanford University, NEC America Laboratories and UC Santa Barbara

Et vous ?

Quel est votre avis sur le sujet ?

Est-ce que les résultats obtenus par les chercheurs sont pertinents ?

Voir aussi :

Les grands modèles de langage sont des raisonneurs neuro-symboliques, selon une étude démontrant le potentiel significatif des LLM dans des tâches symboliques d'applications réelles

Après une mise à niveau LLM vers Inflection-2.5, le chatbot Pi AI destiné à fonctionner comme votre assistant personnel serait désormais intelligent et empathique

Les grands modèles de langage (LLM) sont désormais capables d'ignorer des informations non pertinentes grâce à la nouvelle technique "System 2 Attention" (S2A) introduite par Meta

**Bruno** · 09/05/2024, 13h04

Les chercheurs sont mis en garde contre l'utilisation de l'IA pour l'évaluation par les pairs des articles universitaires,
mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs

Les chercheurs sont avertis de ne pas recourir à l'intelligence artificielle pour évaluer les articles universitaires, mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs. Bien que les progrès des grands modèles de langage rendent tentante l'utilisation de l'IA pour rédiger des évaluations, cela compromettrait le contrôle de qualité inhérent à l'évaluation par les pairs. Pour remédier à cette situation, les principales conférences sur l'IA envisagent de mettre à jour leurs politiques pour interdire explicitement l'utilisation de l'IA dans ce contexte.

Les éditeurs universitaires soulignent que l'évaluation par les pairs doit rester une tâche humaine, car les connaissances et l'expertise des pairs sont irremplaçables pour garantir l'intégrité et la qualité de la recherche. Cependant, malgré les avertissements, de plus en plus de chercheurs ont recours à l'IA pour réviser leurs articles, sous la pression des délais et de la charge de travail. Certains soutiennent que l'IA pourrait améliorer la productivité des chercheurs, mais d'autres soulignent le risque de dégradation du processus de recherche et de la confiance du public dans le monde universitaire.

Nom : articles.jpg
Affichages : 3799
Taille : 48,0 Ko

Alors que l'année dernière a donné lieu à de nombreux discours et spéculations sur l'utilisation généralisée de grands modèles de langage (LLM) dans des secteurs aussi divers que l'éducation, les sciences et les médias, il a été jusqu'à présent impossible de mesurer précisément l'ampleur de cette utilisation ou d'évaluer la manière dont l'introduction de textes générés peut affecter les écosystèmes de l'information. Pour compliquer les choses, il est de plus en plus difficile de distinguer les exemples de textes générés par l'IA des contenus rédigés par l'homme.

La capacité humaine à discerner un texte généré par l'IA d'un contenu écrit par l'homme dépasse à peine celle d'un classificateur aléatoire, ce qui accroît le risque qu'un texte généré sans fondement puisse se faire passer pour un texte faisant autorité et fondé sur des preuves. Dans le domaine de la recherche scientifique, par exemple, des études ont montré que les résumés médicaux générés par ChatGPT peuvent fréquemment contourner les détecteurs d'IA et les experts. Dans les médias, une étude a identifié plus de 700 sites d'information non fiables générés par l'IA dans 15 langues, qui pourraient induire les internautes en erreur.

L'évaluation par les pairs dans l'ère de l'IA : étude de cas sur les conférences en IA

Un groupe de chercheurs de l'Université Stanford, des Laboratoires NEC America et de l'UC Santa Barbara a récemment analysé les évaluations par les pairs d'articles soumis à des conférences majeures en IA, notamment ICLR 2024, NeurIPS 2023, CoRL 2023 et EMNLP 2023. Les auteurs - Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland et James Y. Zou - ont présenté leurs résultats dans un article intitulé « Surveillance de contenu modifié par l'IA à grande échelle : une étude de cas sur l'impact de ChatGPT sur les évaluations par les pairs de conférences en IA. »

Ils ont entrepris cette étude en raison de l'intérêt du public et des discussions sur les grands modèles de langage qui ont dominé le discours technique l'année dernière.

À NeurIPS, les chercheurs sont tenus de ne pas partager leurs soumissions sans autorisation préalable, et le code éthique de la Conférence internationale sur les représentations d'apprentissage (ICLR) stipule que les grands modèles de langage ne peuvent pas être considérés comme des auteurs légitimes. Les représentants de NeurIPS et de l'ICLR ont affirmé que cette politique s'applique à toute entité, y compris l'intelligence artificielle, et que la qualité d'auteur englobe à la fois les articles et les commentaires d'évaluation par les pairs.

Un porte-parole de Springer Nature, une société d'édition universitaire réputée pour sa revue de premier plan, Nature, a souligné que l'évaluation de la recherche doit être confiée à des experts humains, car leur expertise est essentielle pour garantir l'intégrité et la qualité du dossier scientifique. Le porte-parole a ajouté que malgré les avancées rapides de l'intelligence artificielle, les outils générateurs peuvent manquer de connaissances actualisées et produire des informations erronées, biaisées ou non pertinentes.

Malgré le fait que le texte généré peut être indiscernable au cas par cas du contenu écrit par des humains, les études de l'utilisation du LLM à grande échelle trouvent des tendances au niveau du corpus qui contrastent avec le comportement humain à grande échelle. Par exemple, la cohérence accrue de la sortie LLM peut amplifier les biais au niveau du corpus d'une manière qui est trop subtile pour être saisie en examinant les cas individuels d'utilisation.

Les avancées récentes dans les grands modèles de langage ont conduit les chercheurs à les utiliser de plus en plus pour rédiger des évaluations par les pairs, une pratique ancienne dans le monde universitaire où les nouvelles recherches sont examinées et évaluées par d'autres experts du domaine. Cependant, recourir à des outils tels que ChatGPT pour analyser des manuscrits et critiquer la recherche sans les lire compromet ce processus d'évaluation.

Les enjeux de l'intelligence artificielle dans l'évaluation des articles universitaires

Pour remédier à cette situation, les conférences sur l'IA et l'apprentissage automatique envisagent de mettre à jour leurs politiques pour clarifier leur position sur l'utilisation de l'IA dans ce contexte. Par exemple, NeurIPS et l'ICLR examinent la possibilité de mettre en place des comités pour évaluer l'utilisation des grands modèles de langage dans le processus d'évaluation par les pairs. En outre, des éditeurs universitaires tels que Springer Nature soulignent l'importance de faire appel à des experts humains pour évaluer la recherche, soulignant les risques liés à la délégation de cette tâche à l'intelligence artificielle.

Il est crucial de reconnaître les défis considérables que pose l'utilisation généralisée de l'intelligence artificielle, notamment des grands modèles de langage (LLM), dans l'évaluation par les pairs des articles universitaires. En effet, il est devenu extrêmement difficile de distinguer les textes produits par l'IA de ceux rédigés par des humains, ce qui ouvre la porte à des risques graves tels que la propagation de contenus trompeurs ou biaisés.

De plus, il est essentiel de comprendre que les tendances observées dans l'utilisation des LLM peuvent révéler des biais ou des incohérences qui pourraient passer inaperçus lors d'une évaluation individuelle des cas. Cela souligne la nécessité pressante d'adapter nos politiques et nos pratiques pour tenir compte de ces nouveaux défis et de leurs implications sur la qualité et l'intégrité de la recherche.

Enfin, il est impératif de maintenir l'évaluation par les pairs comme une responsabilité humaine, car les experts humains jouent un rôle irremplaçable dans la préservation de la fiabilité et de la crédibilité de la recherche universitaire. Face à ces enjeux, il est impératif d'adopter une approche réfléchie et proactive pour relever les défis posés par l'utilisation de l'IA dans le domaine académique.

Malgré cela, de plus en plus de chercheurs ont recours à l'IA pour réviser leurs articles, ce qui soulève des préoccupations quant à la qualité et à l'intégrité du processus d'évaluation par les pairs. Des études, comme celle menée par l'université de Stanford, ont révélé une augmentation des textes qui semblent avoir été générés par des grands modèles de langage lors du processus d'examen par les pairs. Ces tendances suscitent des inquiétudes quant à l'utilisation appropriée de l'IA dans le domaine académique et soulignent la nécessité pour les conférences et les éditeurs de clarifier leurs politiques concernant l'utilisation de l'IA dans l'évaluation des articles universitaires.

Toutefois, les chercheurs se tournent de plus en plus vers l'IA pour réviser leurs articles. Une étude menée par l'université de Stanford a révélé une augmentation des textes qui semblent avoir été « substantiellement modifiés ou produits par un LLM » lors du processus d'évaluation par les pairs à NeurIPS, ICLR et d'autres conférences populaires sur l'apprentissage automatique. « Je pense que certaines personnes s'en plaignent, et nous avons entendu de nombreuses anecdotes sur des personnes qui pensent avoir reçu des évaluations de ChatGPT », a déclaré à Semafor Weixin Liang, doctorante en informatique à l'université de Stanford.

Perspectives des grandes conférences de ML après ChatGPT

Dans toutes les grandes conférences de ML (NeurIPS, CoRL et ICLR), on observe une forte augmentation de l'estimation α après la publication de ChatGPT à la fin du mois de novembre 2022. Par exemple, parmi les conférences disposant de données avant et après ChatGPT, l'ICLR a connu l'augmentation la plus importante de l'α estimé, passant de 1,6 % à 10,6 % (courbe violette). NeurIPS a connu une augmentation légèrement inférieure, de 1,9 % à 9,1 % (courbe verte), tandis que l'augmentation de CoRL a été la plus faible, de 2,4 % à 6,5 % (courbe rouge). Bien que les données relatives aux examens de l'EMNLP antérieurs à la publication de ChatGPT ne soient pas disponibles, cette conférence a affiché le α estimé le plus élevé, soit environ 16,9 % (point orange). Ce résultat n'est peut-être pas surprenant : les spécialistes du NLP ont peut-être été plus exposés et ont mieux connu les LLM dans les premiers jours de leur publication.

Il convient de noter que tous les niveaux α post-ChatGPT sont significativement plus élevés que les α estimés dans les expériences de validation avec une vérité de terrain α = 0, et pour ICLR et NeurIPS, les estimations sont significativement plus élevées que les estimations de validation avec une vérité de terrain α = 5 %. Cela suggère une utilisation modeste mais notable des outils de génération de texte par l'IA dans les corpus de revues de conférence.

Il est crucial de reconnaître les défis considérables que pose l'utilisation généralisée de l'intelligence artificielle, notamment des grands modèles de langage (LLM), dans l'évaluation par les pairs des articles universitaires. En effet, il est devenu extrêmement difficile de distinguer les textes produits par l'IA de ceux rédigés par des humains, ce qui ouvre la porte à des risques graves tels que la propagation de contenus trompeurs ou biaisés.

De plus, il est essentiel de comprendre que les tendances observées dans l'utilisation des LLM peuvent révéler des biais ou des incohérences qui pourraient passer inaperçus lors d'une évaluation individuelle des cas. Cela souligne la nécessité pressante d'adapter nos politiques et nos pratiques pour tenir compte de ces nouveaux défis et de leurs implications sur la qualité et l'intégrité de la recherche.

Enfin, il est impératif de maintenir l'évaluation par les pairs comme une responsabilité humaine, car les experts humains jouent un rôle irremplaçable dans la préservation de la fiabilité et de la crédibilité de la recherche universitaire. Face à ces enjeux, il est impératif d'adopter une approche réfléchie et proactive pour relever les défis posés par l'utilisation de l'IA dans le domaine académique.

Source : A spokesperson for NeurIPS

Et vous ?

Quel est votre avis sur le sujet ?

Dans quelle mesure l'incapacité à distinguer clairement les textes générés par l'IA de ceux rédigés par des humains menace-t-elle l'intégrité de l'information scientifique et académique ?

En quoi l'utilisation d'outils tels que ChatGPT pour analyser des manuscrits et critiquer la recherche sans les lire remet-elle en question l'intégrité du processus d'évaluation par les pairs ?

Voir aussi :

Les chercheurs en IA ont commencé à évaluer leurs pairs avec l'aide de l'IA, environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des LLM

Les plus grands scientifiques chinois et occidentaux de l'IA publient une déclaration : la menace existentielle que représente l'IA nécessite une collaboration similaire à celle de la guerre froide

**Stéphane le calme** · 30/05/2024, 00h42

L'éditeur de revues académiques Wiley ferme 19 revues scientifiques et retire plus 11 000 articles douteux dont plusieurs ont été générés par IA,
comment les algorithmes ont contribué à la fraude scientifique

Le scandale de la fausse science chez Wiley a récemment fait les gros titres, mettant en lumière une crise de confiance plus large que les universités doivent affronter. Wiley, un éditeur de revues académiques, a fermé 19 revues scientifiques et retiré plus de 11 000 articles douteux. Cette affaire révèle un marché noir florissant de la fausse science, de la recherche corrompue et de l’auteur fictif.

John Wiley & Sons Inc. est un éditeur de revues universitaires. La société, mieux connue sous le nom de Wiley, est cotée à la Bourse de New York (NYSE) et produit chaque année plus de 1 400 publications scientifiques et autres dans le monde entier. L'année dernière, elle a réalisé un chiffre d'affaires de plus de 2 milliards de dollars américains.

Wiley évolue sur le marché circulaire de l'édition scientifique. Les chercheurs qui écrivent pour ces revues, et les universitaires qui les éditent, font ce travail en grande partie gratuitement. Ils sont subventionnés par les mêmes universités qui paient également des sommes importantes pour acheter les revues en question. Cette industrie, dont la valeur est estimée à 45 milliards de dollars, est soutenue par d'énormes quantités d'argent du contribuable.

De fait, les éditeurs de revues scientifiques ne financent pas l’activité de recherche, pas plus qu’ils ne rétribuent les auteurs. Les scientifiques sont payés par les structures qui les emploient et le budget de la recherche est principalement supporté par l’État. Même l’étape de la « relecture par les pairs », phase essentielle au cours de laquelle des scientifiques contrôlent la pertinence et la rigueur d’une recherche avant publication, ne coûte rien aux éditeurs : les « pairs » travaillent pour les revues sur la base du volontariat.

Les universités produisent la recherche… et paient ensuite des sommes colossales pour accéder aux publications. Les dépenses pour les publications scientifiques ont augmenté de 48 % entre 2018 et 2020 en France, selon une étude réalisée par la coopérative Datactivist, spécialisée dans l’étude des données publiques, et commandée par le ministère de la recherche. Ainsi, en 2020, le montant pour frais de publication atteignait 30,1 millions d’euros. Si l’on y ajoute le prix des abonnements aux revues scientifiques, la somme atteint 117,6 millions d’euros.

Nom : couts.png
Affichages : 83465
Taille : 32,8 Ko

Les ravages de l'IA générative

En décembre 2023, Wiley a annoncé qu'il cesserait d'utiliser la marque Hindawi, acquise en 2021, à la suite de sa décision, en mai 2023, de fermer quatre de ses revues « pour atténuer la manipulation systématique du processus de publication ».

Il s'est avéré que les revues d'Hindawi publiaient des articles provenant d'usines à articles, c'est-à-dire d'organisations ou de groupes d'individus qui tentent de subvertir le processus de publication universitaire à des fins de gain financier. Au cours des deux dernières années, un porte-parole de Wiley a déclaré que l'éditeur avait retiré plus de 11 300 articles de son portefeuille Hindawi.

« Dans le cadre de la lutte contre la manipulation systématique du processus de publication, Hindawi a fermé aujourd'hui quatre revues qui ont été fortement compromises par des usines à articles. Il s'agit de Computational and Mathematical Methods in Medicine, Journal of Healthcare Engineering, Journal of Environmental and Public Health et Computational Intelligence and Neuroscience. En outre, nous nous engageons à poursuivre notre travail de rétractation du contenu compromis de ces revues malgré leur fermeture.

« L'abandon de ces revues n'est pas une décision que nous avons prise à la légère. Ces revues ont publié des numéros spéciaux qui ont été tellement affectés que nous pensons qu'il est dans l'intérêt de la communauté scientifique de les supprimer. Nous savons que ces revues ont fait l'objet d'efforts considérables et nous apprécions tous les rédacteurs en chef et les pairs évaluateurs qui ont consacré du temps et de l'expertise à l'évaluation de recherches légitimes au fil des ans. Nous reconnaissons également l'impact sur les auteurs qui ont publié des recherches légitimes dans ces revues. Tous les articles hébergés dans Web of Science resteront entièrement indexés et nous nous engageons à continuer d'héberger tout le contenu publié sur les sites web des revues archivées ».

Comme le décrit un livre blanc rédigé par Wiley et publié en décembre dernier, Tackling publication manipulation at scale : Hindawi's journey and lessons for academic publishing, les usines à articles s'appuient sur diverses pratiques contraires à l'éthique, telles que l'utilisation de l'IA dans la fabrication de manuscrits et la manipulation d'images, ainsi que le détournement du processus d'évaluation par les pairs.

L'affaire Hindawi a coïncidé avec le départ du président-directeur général de Wiley, Brian Napack, en octobre 2023. Dans son rapport sur les résultats du deuxième trimestre 2024 en décembre dernier, Wiley a admis que la baisse de 18 millions de dollars de son chiffre d'affaires dans le domaine de l'édition de recherche était « principalement due à l'interruption de l'édition de Hindawi ».

En janvier, Wiley a adhéré à United2Act, une initiative de l'industrie visant à lutter contre les usines à articles.

Nom : livre.png
Affichages : 19817
Taille : 310,5 Ko

Mais l'inquiétude concernant l'intégrité de la recherche universitaire ne se limite pas aux publications de Wiley

Une étude publiée dans Nature en juillet dernier suggère qu'un quart des essais cliniques sont problématiques ou entièrement fabriqués.

Toutefois, les éditeurs universitaires semblent vouloir bénéficier des avantages de l'assistance à la rédaction par l'IA sans en subir les inconvénients. Springer Nature, par exemple, a lancé en octobre dernier Curie, un assistant d'écriture doté d'IA destiné à aider les scientifiques dont la langue maternelle n'est pas l'anglais. D'où les appels à de meilleurs outils pour détecter les résultats génératifs de l'IA - un appel auquel répondent les efforts récents pour améliorer le filigrane du contenu de l'IA - qui, selon certains chercheurs, ne fonctionnera pas.

Un porte-parole de Wiley a expliqué que la décision de fermer les 19 revues s'inscrivait dans le cadre du plan déjà annoncé d'intégration des portefeuilles de Hindawi et de Wiley, et qu'elle était distincte de la question de l'usine à articles. « Dans le cadre de cette intégration, et conformément à la pratique habituelle, nous avons examiné notre portefeuille de revues et décidé de fermer 19 revues Hindawi qui n'étaient plus utiles à leurs communautés », a déclaré le porte-parole.

« Il est important de faire la distinction entre les fermetures de revues qui ont lieu actuellement dans le cadre de l'intégration de notre portefeuille et les quatre revues fermées en mai 2023. Les revues fermées en mai 2023 ont été fortement touchées par les usines à articles, à tel point qu'il était dans le meilleur intérêt de la communauté scientifique de les arrêter immédiatement. »

Parallèlement, dans le rapport sur les résultats de Wiley pour le troisième trimestre fiscal 2024, l'éditeur a noté que les revenus de sa division d'apprentissage devraient se situer vers le haut des projections en raison des « accords de droits de contenu du quatrième trimestre pour la formation des modèles d'IA. »

La disponibilité et la sophistication croissantes de l'IA générative n'est pas le seul facteur contribuant à la crise de l'édition universitaire, mais les outils d'IA facilitent la falsification.

« L'industrie reconnaît que l'IA est utilisée par les usines à articles pour générer du contenu frauduleux », nous a dit le porte-parole de Wiley. « Nous avons récemment introduit une nouvelle technologie de filtrage qui permet d'identifier les articles susceptibles de faire un usage abusif de l'IA générative avant le stade de la publication.

Selon un document de prépublication publié en février, le volume d'articles soumis à ArXiv a considérablement augmenté dans les trois principales catégories entre 2019 et 2023 - une période qui coïncide à peu près avec les débuts d'outils tels que ChatGPT. Les articles sur l'informatique ont augmenté de 200 % au cours de ces quatre années, suivis par les articles sur la physique (45 %) et les mathématiques (22 %).

L'IA à toutes les sauces : les chercheurs en IA ont commencé à évaluer leurs pairs avec l'aide de l'IA

Les chercheurs en intelligence artificielle ont commencé à utiliser l'assistance de l'IA pour évaluer le travail de leurs pairs. C'est le constat qui ressort d'une étude menée par un groupe de chercheurs provenant de plusieurs institutions de renom. Ces derniers ont analysé les évaluations par les pairs d'articles soumis à des conférences importantes en intelligence artificielle. Leur étude, motivée par l'essor des grands modèles de langage et la difficulté croissante à distinguer le texte généré par des humains de celui généré par des machines, souligne l'importance de développer des moyens d'évaluer le contenu rédigé par l'IA.

Ils ont constaté que l'utilisation d'adjectifs dans les évaluations peut permettre de distinguer le travail assisté par l'IA de celui rédigé entièrement par des humains. Environ 6,5 % à 16,9 % des évaluations par les pairs pourraient avoir été substantiellement modifiées par des modèles de langage, selon leurs résultats. Les chercheurs mettent en garde contre le manque de transparence dans l'utilisation de l'IA pour la rédaction scientifique et soulignent les risques d'homogénéisation des retours d'IA, qui pourraient éloigner les évaluations significatives des experts.

Un comportement potentiel dangereux

Les chercheurs sont avertis de ne pas recourir à l'intelligence artificielle pour évaluer les articles universitaires, mettant ainsi en péril l'intégrité du processus d'évaluation par les pairs. Bien que les progrès des grands modèles de langage rendent tentante l'utilisation de l'IA pour rédiger des évaluations, cela compromettrait le contrôle de qualité inhérent à l'évaluation par les pairs. Pour remédier à cette situation, les principales conférences sur l'IA envisagent de mettre à jour leurs politiques pour interdire explicitement l'utilisation de l'IA dans ce contexte.

Les éditeurs universitaires soulignent que l'évaluation par les pairs doit rester une tâche humaine, car les connaissances et l'expertise des pairs sont irremplaçables pour garantir l'intégrité et la qualité de la recherche. Cependant, malgré les avertissements, de plus en plus de chercheurs ont recours à l'IA pour réviser leurs articles, sous la pression des délais et de la charge de travail. Certains soutiennent que l'IA pourrait améliorer la productivité des chercheurs, mais d'autres soulignent le risque de dégradation du processus de recherche et de la confiance du public dans le monde universitaire.

Conclusion

Ce scandale met en évidence la nécessité pour les universités et les éditeurs de revues scientifiques de renforcer la confiance dans le processus de publication. La vigilance contre la fausse science et la recherche corrompue reste essentielle pour préserver l’intégrité de la recherche scientifique.

Sources : étude réalisée par la coopérative Datactivist, Wiley (1, 2, 3, 4), Hindawi, Analyse quantitative des textes générés par l'IA dans la recherche universitaire : une étude de la présence de l'IA dans les soumissions Arxiv à l'aide d'un outil de détection de l'IA, La médecine est en proie à des essais cliniques peu fiables. Combien d'études sont fausses ou erronées ?

Et vous ?

Quelle est la responsabilité des éditeurs de revues scientifiques dans la détection et la prévention de la fausse science ? Les éditeurs ont-ils suffisamment de mécanismes en place pour vérifier l’intégrité des articles soumis ? Comment pourraient-ils améliorer leurs processus de sélection et de révision ?

Quelles sont les conséquences pour la confiance dans la recherche scientifique ? Comment ce scandale affecte-t-il la perception du grand public vis-à-vis de la science ? Quelles mesures peuvent être prises pour restaurer la confiance ?

Quel rôle jouent les universités dans la prévention de la fausse science ? Devraient-elles revoir leurs politiques de publication et de financement ? Comment peuvent-elles sensibiliser leurs chercheurs à l’importance de l’intégrité scientifique ?

Quelles sont les implications pour les chercheurs et les étudiants ? Comment les chercheurs peuvent-ils se protéger contre la publication dans des revues douteuses ? Quelles compétences en littératie scientifique devraient être enseignées aux étudiants ?

**pvincent** · 11/06/2024, 07h44

A l'heure d'internet, la seule valeur ajoutée véritable des éditeur est le choix des publications, qui, comme dit dans le post, repose sur le travail gratuit des "pairs".
Sinon, il y a des sites collaboratifs comme ArXiv (https://fr.wikipedia.org/wiki/ArXiv)

L"IA rend le travail plus difficile mais le problème n'est pas nouveau: le texte suivant traîne sur le Web depuis longtemps:

la « parabole » d'Harnad

1. Un jeune chercheur ayant tout juste obtenu son doctorat annonce fièrement à
sa mère qu'il vient de publier son premier article. Elle lui demande combien
il a été payé. Il grimace, répond : « Rien » et se lance alors dans une
explication longue et compliquée...

2.Un chercheur de la même université repère cet article. Il se rend à la
bibliothèque pour l'obtenir. On lui répond : « Nous ne sommes pas abonnés à
cette revue, trop chère pour nous (notre budget d'abonnements, de droits, de
prêt et de reproduction est déjà largement dépensé). »

3. Un étudiant, dans la même université, voit le même article cité sur le Web.
Il clique sur la citation. Le site de l'éditeur demande un mot de passe :
« Accès refusé : seules les institutions autorisées et ayant souscrit un
abonnement ont accès à la revue. »

4. L'étudiant perd patience, s'ennuie et clique sur Napster pour mettre la
main sur la version MP3 de son CD favori et se consoler ainsi de ses
malheurs.

5. Des années plus tard, la titularisation [recrutement] du docteur du point
1 est envisagée. Ses publications sont bonnes, mais pas assez citées ; leur
« impact sur la recherche » n'est pas suffisant. Titularisation refusée.

6. Le même scénario se répète lorsqu'il essaie d'obtenir des crédits de
recherche. Ses résultats scientifiques n'ont pas eu un impact suffisant. Trop
peu de chercheurs les ont lus, s'en sont inspirés et les ont cités.
Financement refusé.

7. Il essaie alors d'écrire un livre. Les éditeurs refusent de le publier :
« On n'en vendrait pas assez d'exemplaires car il y a trop peu d'universités
ayant suffisamment d'argent pour en payer le prix (leurs budgets d'achat sont
limités par le coût annuel, sans cesse croissant, de leurs abonnements,
droits et prêts). »

8. Il essaie de mettre ses articles sur le Web, en accès libre, afin
d'augmenter leur impact [visibilité]. Son éditeur menace de le poursuivre,
ainsi que son fournisseur d'accès, pour violation du copyright.

9. Il demande à son éditeur : « Qui le copyright est-il censé protéger ? » Son
éditeur lui répond : « Vous ! »

=> Qu'est-ce qui ne va pas dans cette histoire ?

**Matthieu Vergne** · 13/06/2024, 22h49

La publication scientifique est dans un cercle vicieux : on dilue la qualité dans la quantité, ce qui donne plus d'importance aux citations qu'aux sujets, ce qui pousse à plus de citations, donc plus d'articles, donc on dilue davantage parce que le temps disponible, lui, n'est pas extensible.

J'aimerais qu'on casse ces éditeurs pros au profit d'une édition collaborative à la Wikipédia. Avec des mesures de performance établies de manière communautaire, utilisées via de la gamification pour motiver l'amélioration de la production scientifique de manière itérative. De quoi permettre à tout un chacun de participer tout en poussant à la qualité, sans blocage d'accès.

L'éditeur de revues académiques Wiley ferme 19 revues scientifiques et retire plus 11 000 articles douteux

Intelligence artificielle

Discussions similaires

Partager

Partager