4chan, le forum anonyme constitué d'un réseau d'échange d'images et d'autres sites web cachés qui façonnent les chatbots d’IA,
récupérés dans la méga-bibliothèque de Google pour la formation des ML

Une enquête menée par le Washington Post et l'Allen Institute for AI a analysé l'immense ensemble de données publiques C4 de Google qui contient le contenu de 15 millions de sites web, pour montrer les types de sites web qui entrent dans les données d’entraînement d’une IA. Le sujet porte sur la liste secrète des sites web qui alimentent les chatbots d’IA comme ChatGPT.

L’enquête révèle que les chatbots ne comprennent pas ce qu’ils disent, mais qu’ils imitent le langage humain à partir de textes tirés de l’internet. À l’issue de l’analyse de l’ensemble de données C4 de Google, il ressort que cet ensemble de données a été utilisé pour former des IA de langue anglaise de premier plan, comme T5 de Google et LLaMA de Facebook. Il révèle également que les chercheurs du Washington ont collaboré avec des chercheurs de l’Allen Institute for AI et a classé les sites web en utilisant les données de Similarweb.

Nom : GoogleAI2.jpg
Affichages : 2671
Taille : 5,5 Ko

L’enquête présente également la liste secrète des sites web comme 4chan qui, donnent à l’IA comme ChatGPT une apparence intelligente. Il explique comment les chatbots d’IA fonctionnent et quels sont les enjeux éthiques et de qualité liés aux données d’entraînement qu’ils utilisent.


4chan est un site Web de tableau d'images qui est principalement utilisé par les jeunes hommes. Les données démographiques officielles indiquent que le groupe d'âge le plus populaire est celui entre 18 et 25 ans. Cependant, il existe de nombreuses histoires personnelles en ligne d'adolescents qui utilisent 4chan.

Il a été créé à l'origine en réponse au 2chan du Japon et utilisé pour discuter de l'anime. Cependant, il dispose désormais de panneaux allant du jeu vidéo au contenu pour adultes facilement accessible par tous les visiteurs du site. 4chan est également une source pour de nombreux mèmes Internet ainsi que des mouvements politiques, de l'hacktivisme et des cyberattaques. En conséquence, il a été au centre de nombreuses controverses dans les médias et peut avoir un impact sur la sécurité en ligne.

Les chatbots d’IA sont des programmes informatiques capables de converser avec les humains en utilisant le langage naturel. Ils ont connu un essor remarquable ces derniers mois, en montrant des capacités impressionnantes dans divers domaines, comme la rédaction de dissertations, la génération de contenu créatif ou la réponse à des questions complexes.

Toutefois, les chatbots d’IA ne peuvent pas penser comme les humains. Ils ne comprennent pas réellement le sens des mots qu’ils utilisent, ni le contexte dans lequel ils s’expriment. Ils se contentent d’imiter le langage humain à partir de textes qu’ils ont ingérés, principalement tirés de l’internet.

L’internet est donc la principale source d’information de l’IA sur le monde tel qu’il est construit, et il influence la manière dont elle répond aux utilisateurs. Par exemple, si un chatbot réussit l’examen du barreau, c’est probablement parce que ses données d’entraînement comprenaient des milliers de sites d’entraînement au LSAT, un test standardisé pour les étudiants en droit aux États-Unis.

Or, les entreprises technologiques qui développent les chatbots d’IA sont de plus en plus discrètes sur ce qu’elles donnent à l’IA. Elles ne divulguent pas les sources ni les critères de sélection des données d’entraînement qu’elles utilisent, ce qui pose des problèmes de transparence et de fiabilité.

Le Washington Post a de ce fait décidé d’analyser l’un de ces ensembles de données, appelé C4, qui a été créé par Google. C4 est un instantané massif du contenu de 15 millions de sites web, qui a été utilisé pour former certaines IA de langue anglaise de premier plan, appelées grands modèles de langage. Parmi ces modèles, on trouve T5 de Google et LLaMA de Facebook. OpenAI, quant à elle, ne révèle pas les ensembles de données qu’elle utilise pour entraîner les modèles qui soutiennent son chatbot populaire, ChatGPT.

Comme dit précédemment, le Washington Post a collaboré avec des chercheurs de l’Allen Institute for AI pour mener cette enquête. Ils ont classé les sites web présents dans C4 en utilisant les données de Similarweb, une société d’analyse du trafic web. Ils ont ainsi pu révéler les types de sites web qui entrent dans les données d’entraînement d’une IA.

Le résultat est surprenant : on trouve dans C4 des sites web propriétaires, personnels et souvent offensants, qui n’ont rien à voir avec le contenu informatif ou éducatif que l’on pourrait attendre. Par exemple, on trouve des sites web racistes, sexistes ou conspirationnistes, des sites web pornographiques ou violents, des sites web religieux ou politiques, des sites web commerciaux ou publicitaires, etc.

Comme la plupart des entreprises, Google a filtré les données avant de les transmettre à l'IA. (C4 signifie Colossal Clean Crawled Corpus.). Outre la suppression du charabia et des doublons, l'entreprise a utilisé la source ouverte List of Dirty, Naughty, Obscene, and Otherwise Bad Words, qui comprend 402 termes en anglais et un emoji (une main faisant un geste courant mais obscène). Les entreprises utilisent généralement des ensembles de données de haute qualité pour affiner leurs modèles, protégeant ainsi les utilisateurs de certains contenus indésirables.

Si ce type de liste de blocage vise à limiter l'exposition d'un modèle à des insultes raciales et à des obscénités lors de son apprentissage, il a également été démontré qu'il éliminait certains contenus LGBTQ non sexuels. Comme l'ont montré des études antérieures, beaucoup de choses passent à travers les filtres. « Nous avons trouvé des centaines d'exemples de sites web pornographiques et plus de 72 000 occurrences de "swastika", l'un des termes interdits de la liste », déclarent les chercheurs.

Parallèlement, le Washington Post a constaté que les filtres n'avaient pas supprimé certains contenus inquiétants, notamment le site suprématiste blanc stormfront.org (n° 27 505), le site anti-trans kiwifarms.net et 4chan.org, le forum de discussion anonyme connu pour organiser des campagnes de harcèlement ciblées contre des individus.

« Nous avons par ailleurs trouvé le site threepercentpatriots.com, qui prône une idéologie antigouvernementale partagée par des personnes inculpées dans le cadre de l'attentat du 6 janvier 2021 contre le Capitole des États-Unis. Des sites promouvant des théories du complot, notamment le phénomène d'extrême droite QAnon et le "pizzagate", la fausse affirmation selon laquelle une pizzeria de Washington serait une couverture pour des pédophiles, étaient également présents. »

Ces sites web peuvent avoir un impact négatif sur la qualité et la neutralité des réponses des chatbots d’IA. Ils peuvent aussi véhiculer des stéréotypes, des préjugés ou des fausses informations. Il est donc important de savoir quels sont les sites web qui alimentent les chatbots d’IA, et de les vérifier pour éviter des problèmes éthiques ou de qualité.

Source : Washington Post

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Un ingénieur de Google a été congédié après avoir déclaré que le chatbot IA LaMDA de Google est devenu sensible et exprime des pensées et des sentiments équivalents à ceux d'un enfant humain

Google prépare sa réponse à ChatGPT : développé par sa filiale DeepMind, Sparrow passera en bêta privée plus tard cette année. Contrairement à l'IA d'OpenAI, ce dernier devrait citer ses sources

Google a formé un modèle de langage qui serait capable de répondre aux questions d'ordre médicales avec une précision de 92,6 %, les médecins eux-mêmes ont obtenu un score de 92,9 %