L'IA de YouTube a bloqué par erreur des chaînes d'échecs après avoir pris des expressions comme "noir contre blanc"
pour des incitations à la haine
Les discussions en ligne sur les pièces d'échecs en noir et blanc déroutent les algorithmes d'intelligence artificielle formés pour détecter le racisme et autres discours de haine, selon de nouvelles recherches.
Les informaticiens de l'Université Carnegie Mellon ont commencé à enquêter sur le problème de l'IA après qu'une chaîne d'échecs populaire sur YouTube a été bloquée pour contenu « nuisible et dangereux » en juin dernier.
Le joueur d'échecs croate Antonio Radic, qui répond au pseudonyme Agadmator en ligne, héberge la chaîne d'échecs YouTube la plus populaire au monde, avec plus d'un million d'abonnés.
Le 28 juin 2020, Radic a été bloqué de YouTube lors de la présentation d'un spectacle d'échecs avec le grand maître Hikaru Nakamura, bien qu'aucune raison spécifique n'ait été donnée par la plateforme vidéo appartenant à Google. La chaîne de Radic a été rétablie après 24 heures, ce qui a amené le champion d'échecs à spéculer qu'il avait été temporairement banni pour avoir parlé de « noir contre blanc », alors qu'il faisait référence à la couleur des pions du jeu d'échecs à l'époque.
Le système de modération de YouTube repose à la fois sur les humains et sur des algorithmes d'IA, ce qui signifie que tout système d'IA pourrait mal interpréter les commentaires s'il n'est pas correctement formé pour comprendre le contexte.
« S'ils s'appuient sur l'intelligence artificielle pour détecter un langage raciste, ce type d'accident peut se produire », a déclaré Ashiqur KhudaBukhsh, scientifique du projet au Language Technologies Institute de la CMU.
KhudaBukhsh a testé cette théorie en utilisant un classificateur de discours de pointe pour filtrer plus de 680 000 commentaires recueillis sur cinq chaînes YouTube populaires axées sur les échecs.
Après avoir examiné manuellement une sélection de 1000 commentaires qui avaient été classés par l'IA comme discours de haine, ils ont constaté que 82 % d'entre eux avaient été mal classés en raison de l'utilisation de mots tels que « noir », « blanc », « attaque » et « menace », mots qui sont tous couramment utilisés dans le jargon des échecs.
Le document a été présenté ce mois-ci lors de la conférence annuelle de l'Association for the Advancement of AI.
Une situation qui pourrait être exacerbée au nom de l'inclusion ?
De façon générale, l’expression « liste blanche » définit un ensemble d’entités auquel on attribue le niveau de liberté ou de confiance le plus élevé dans un système donné. Pour emprunter au jargon utilisé en électronique numérique, elle est complémentaire (au sens de complément à 1) à celle de « liste noire. » En informatique, toute entité ne figurant pas sur la liste dite blanche se verra alors refuser certains accès ou certaines possibilités ; c’est de façon basique la même chose que de dire que toute entité figurant sur la liste dite noire ne bénéficie pas de certains accès ou certaines possibilités.
C’est en principe la compréhension que les tiers qui travaillent dans la filière informatique ou qui ont flirté avec cette dernière ont de ces notions.
Pourtant, une publication de l’agence britannique de cybersécurité vient étendre la compréhension qu’on en avait déjà. À la demande d’un de ses clients formulée en 2020, cette dernière a décidé de ne plus faire usage de ces expressions.
« Il est assez courant de dire liste blanche et liste noire pour décrire les choses souhaitables et indésirables en matière de cybersécurité », explique le National Cyber Security Centre (NCSC). « Cependant, il y a un problème avec la terminologie. Cela n'a de sens que si vous assimilez le blanc à "bon, autorisé, sûr" et le noir à "mauvais, dangereux, interdit". Cela pose des problèmes évidents. Ainsi, au nom de la lutte contre le racisme dans le domaine de la cybersécurité, nous éviterons à l'avenir cette formulation péjorative et désinvolte sur notre site web. Non, ce n'est pas le plus grand problème au monde ; mais pour emprunter à un slogan venu d'ailleurs : chaque petit geste compte.Vous ne voyez peut-être pas en quoi cela est important. Si vous n'êtes pas affecté par les stéréotypes raciaux, alors estimez-vous chanceux. Pour certains de vos collègues (et futurs collègues potentiels) par contre, c'est vraiment un changement qui vaut la peine », ajoute-t-il. À la place, le NCSC va utiliser les expressions « liste d'autorisation » et « liste de refus », plus claires, moins ambiguës et surtout plus inclusives.
Ce sont des développements qui ne sont pas sans faire penser à de similaires sur la liste de diffusion de bogues du navigateur open source Chromium. À la requête d’un ingénieur de Microsoft, ceux de Google ont, l’an passé, accepté d’arrêter d’utiliser les expressions « liste blanche » et « liste noire ».
Parlant d'autres expressions, les développeurs de la base de données MySQL ont annoncé leur intention de cesser d'utiliser et de remplacer des termes tels que master, slave, blacklist et whitelist dans le code source et la documentation de la base de données. Dans un billet de blog, l’équipe Oracle MySQL a expliqué :
« Cela fait 20 ans que la réplication MySQL a été introduite dans MySQL 3.23.15 (sortie en mai 2000). Depuis lors, pratiquement tous les déploiements de bases de données MySQL en production utilisent la réplication afin d'atteindre une haute disponibilité, une reprise après sinistre, une évolutivité en lecture et divers autres objectifs.
« Quiconque utilise la réplication MySQL connaît les termes : ‘master’ et ‘slave’. Les origines de ces mots sont négatives. C’est clair. Chez MySQL, nous avons pris la décision de changer cette terminologie. Déjà, beaucoup d'entre nous ont changé la façon dont nous nous référons à ces rôles dans les billets de blog et les présentations – en utilisant généralement des termes comme ‘primaire’, ‘secondaire’, ‘source’ et ‘réplique’. Nous avons maintenant commencé le processus de modification de la syntaxe MySQL dans notre code source et notre documentation pour faire correspondre tout cela ».
Une alternative envisagée pour les termes « master » et « slave » était donc « primaire » et « secondaire », mais les développeurs MySQL ont abandonné les deux pour des raisons de précision technique étant donné que les derniers produits (MySQL Group Replication, MySQL InnoDB Cluster, MySQL InnoDB ReplicaSet) reposent déjà sur l'utilisation de ces termes pour définir les différents rôles que les serveurs peuvent avoir dans l'architecture de base de données.
En 2018, l’équipe du projet Python s’est engagée sur une voie similaire. Au nom de l’inclusion, elle s’était lancée dans le processus de suppression des termes « master » et « slave » de sa documentation et de sa base de code. Elle rejoignait d’autres comme Django (2014), CouchDB (2014), Drupal (2014) et Redis (2017). Selon le projet, la paire "master/slave" s’était vu remplacée par des terminologies comme "leader/follower" ou "primary/replica". Dans le cas de Python, l'initiateur de la manœuvre est Victor Stinner, un développeur travaillant pour Red Hat. Il a publié cinq pull requests, ciblant plusieurs domaines, pour changer "master" et "slave" dans la documentation et le code Python par des termes comme "parent", "worker", "child" ou autres termes similaires.
« Le mot "slave" a des connotations négatives (bien que cela puisse ou non être pertinent dans la dénomination d'un terme technique), y compris l'histoire de l'esclavage sur plusieurs siècles au bénéfice des puissances coloniales européennes, les travailleurs pénitentiaires aujourd'hui forcés de travailler dans des conditions parfois similaires à l'esclavage, les jeunes filles vendues dans l'esclavage sexuel dans de nombreuses régions du monde aujourd'hui », expliquait le projet Drupal. La connotation sexiste de ces termes avait particulièrement été citée lorsque la question était débattue pour le projet Django. Une ingénieure DevOps s'était en effet plainte que ses collègues lui faisaient souvent des blagues en utilisant les termes "master" et "slave".
Source : conférence annuelle de l'Association for the Advancement of AI
Et vous ?
Quelle lecture faites-vous de cette situation ?
Partager