Meta crée une IA qui peut jouer au jeu de stratégie Diplomacy et serait capable de tromper les joueurs humains

**Bill Fassinou** · 23/11/2022, 21h42

Meta crée une IA qui peut jouer au jeu de stratégie Diplomacy et serait capable de tromper les joueurs humains
après les controverses suscitées par ses systèmes d'IA BlenderBot 3 et Galactica

Meta, la société mère de Facebook, a présenté mardi Cicero, un agent d'IA qui serait capable de jouer au jeu de stratégie classique Diplomacy à un niveau comparable à celui de la plupart des joueurs humains. L'équipe de Cicero la présente comme une IA qui négocie, persuade et coopère avec les gens en se basant sur le langage naturel. Il s'agit d'une réalisation importante dans le domaine du traitement du langage naturel (TLN), car le jeu exige des compétences approfondies en matière de négociation interpersonnelle, ce qui implique que Cicero a acquis une certaine maîtrise du langage nécessaire pour gagner la partie. Mais l'on craint qu'elle soit détournée de son usage initial.

Cicero : une IA qui serait capable de jouer au jeu de stratégie Diplomacy comme des humains

Avant que Deep Blue ne batte Garry Kasparov aux échecs en 1997, les jeux de société constituaient déjà une mesure utile des réalisations de l'IA. En 2015, une autre barrière est tombée lorsqu'AlphaGo a battu le maître du Go, Lee Sedol. Ces deux jeux suivent un ensemble relativement clair de règles analytiques (bien que les règles du Go soient généralement simplifiées pour l'IA par ordinateur). Mais avec Diplomacy, une grande partie du gameplay implique des compétences sociales. Les joueurs doivent faire preuve d'empathie, utiliser un langage naturel et établir des relations pour gagner, une tâche potentiellement difficile pour un joueur informatique.

Développé dans les années 1950 et actuellement publié par Hasbro, Diplomacy est axé sur la communication et la négociation entre les joueurs, qui jouent le rôle de sept puissances européennes au début du XXe siècle. Il est considéré par certains joueurs comme le moyen idéal de perdre ses amis. Diplomacy simule la prise de territoires sur une carte de l'Europe. Plutôt que de jouer à tour de rôle, les joueurs écrivent leurs mouvements à l'avance et les exécutent simultanément. Pour éviter de faire des mouvements qui sont bloqués parce qu'un adversaire a fait un contre mouvement, les joueurs communiquent entre eux en privé.

Ils discutent des actions coordonnées potentielles, puis inscrivent leurs mouvements sur papier, en respectant ou en violant les engagements pris envers les autres joueurs. L'accent mis par Diplomacy sur la communication, la confiance et la trahison en fait un défi différent des jeux plus axés sur les règles et les ressources comme les échecs et le Go. Dans cette optique, Meta s'est demandé : « pouvons-nous construire des agents plus efficaces et plus flexibles, capables d'utiliser le langage pour négocier, persuader et travailler avec les gens pour atteindre des objectifs stratégiques, comme le font les humains ? ».

Dans un billet de blogue publié mardi, Meta affirme que Cicero est essentiellement un chatbot qui peut négocier avec d'autres joueurs de Diplomacy pour effectuer des mouvements efficaces dans le jeu. Selon l'entreprise, Cicero a acquis ses compétences en jouant à une version en ligne de Diplomacy sur webDiplomacy.net. Au fil du temps, il serait devenu un maître du jeu, obtenant "plus du double du score moyen" des joueurs humains et se classant parmi les 10 % de personnes ayant joué plus d'une fois. Les chercheurs de Meta affirment que "Cicero manipule avec soin le langage naturel et est capable de tromper les joueurs humains".

« Diplomacy est considéré depuis des décennies comme un grand défi quasi impossible en matière d'IA, car elle exige des joueurs qu'ils maîtrisent l'art de comprendre les motivations et les perspectives des autres, qu'ils élaborent des plans complexes et ajustent leurs stratégies, et qu'ils utilisent le langage naturel pour conclure des accords avec d'autres personnes, les convaincre de former des partenariats et des alliances, et plus encore. Cicero est si efficace pour utiliser le langage naturel afin de négocier avec les gens dans Diplomacy qu'ils ont souvent préféré travailler avec Cicero plutôt qu'avec d'autres participants humains », a déclaré Meta.

Cicero serait capable de coopérer avec les joueurs humains ou de les tromper

Alors que les agents d'IA pour des jeux comme les échecs peuvent être entraînés par le biais de l'apprentissage par renforcement, la modélisation du jeu coopératif de Diplomacy a nécessité une technique différente. Selon Meta, l'approche classique impliquerait un apprentissage supervisé, par lequel un agent serait formé à l'aide de données étiquetées provenant de parties de Diplomacy passées. Mais l'apprentissage supervisé seul produit un agent d'IA crédule qui peut être facilement manipulé par des joueurs menteurs. L'entreprise a annoncé que ses chercheurs ont mis en place une nouvelle approche plus adaptée à Diplomacy.

Pour créer Cicero, Meta a rassemblé des modèles d'IA pour le raisonnement stratégique (similaire à AlphaGo) et le traitement du langage naturel (similaire à GPT-3) et les a intégrés dans un seul agent. Pendant chaque partie, Cicero examine l'état du plateau de jeu et l'historique des conversations et prédit comment les autres joueurs vont agir. Il élabore un plan qu'il exécute grâce à un modèle de langage capable de générer un dialogue de type humain, ce qui lui permet de se coordonner avec les autres joueurs. Meta appelle les compétences en langage naturel de Cicero un "modèle de dialogue contrôlable".

Cicero est basé sur un modèle de langage de type BART à 2,7 milliards de paramètres. Comme GPT-3, l'IA de Meta est préentraînée sur du texte provenant d'Internet et augmenté à l'aide d'un ensemble de données de plus de 40 000 parties de Diplomacy jouées sur webDiplomacy.net. Selon le billet de blogue de Meta, ces parties contenaient plus de 12 millions de messages échangés entre les joueurs. Cicero comprend donc un algorithme de planification itératif appelé piKL, qui permet d'affiner une prédiction initiale des politiques des autres joueurs et des mouvements prévus, sur la base du dialogue entre le robot et les autres joueurs.

L'algorithme tente d'améliorer les ensembles de mouvements prévus pour les autres joueurs en évaluant différents choix qui produiraient de meilleurs résultats. Meta a déclaré que le modèle résultant maîtrisait les subtilités d'un jeu complexe. « Cicero peut déduire, par exemple, que plus tard dans le jeu, il aura besoin du soutien d'un joueur particulier, puis élaborer une stratégie pour gagner la faveur de cette personne - et même reconnaître les risques et les opportunités que ce joueur voit de son point de vue particulier », explique Meta. Andrew Goff, triple champion du monde de Diplomacy, a salué l'approche sans passion de Cicero.

« Beaucoup de joueurs humains adoucissent leur approche ou commencent à être motivés par la vengeance, mais Cicero ne fait jamais cela. Il joue simplement la situation comme il la voit. Il est donc impitoyable dans l'exécution de sa stratégie, mais il n'est pas impitoyable au point d'ennuyer les autres joueurs », a déclaré Goff. Meta a annoncé que Cicero a joué anonymement 40 parties de Diplomacy dans une ligue "blitz" sur webDiplomacy.net entre le 19 août et le 13 octobre 2022, et a terminé dans les 10 % des participants ayant joué plus d'une partie. Et parmi les 19 qui ont joué cinq parties ou plus, Cicéron aurait terminé deuxième.

Sur l'ensemble des 40 parties, le score moyen de Cicéron serait de 25,8 %, soit plus du double de la moyenne de 12,4 % parmi ses 82 adversaires. Bien que Cicero fasse encore quelques erreurs, les ingénieurs de Meta prévoient que leurs recherches seront utiles pour d'autres applications, comme les robots de conversation capables de tenir de longues conversations ou les personnages de jeux vidéo qui comprennent les motivations des joueurs et peuvent ainsi interagir plus efficacement. Le code de Cicero a été publié sous une licence open source dans l'espoir que la communauté des développeurs d'IA puisse l'améliorer davantage.

Les récentes IA de Meta se sont révélées racistes et ont diffusé de fausses informations

Les recherches de Meta sur Cicero ont été publiées dans la revue Science sous le titre "Human-level play in the game of Diplomacy by combining language models with strategic reasoning". En ce qui concerne les applications plus larges, Meta suggère que sa recherche sur Cicero pourrait "atténuer les barrières de communication" entre les humains et l'IA, par exemple en maintenant une conversation à long terme pour enseigner à quelqu'un une nouvelle compétence. Elle pourrait également alimenter un jeu vidéo dans lequel les PNJ pourraient parler comme des humains, comprendre les motivations du joueur et s'adapter en cours de route.

Selon les analystes, il s'agit d'une réalisation importante dans le domaine du traitement du langage naturel. Cela pourrait aider les gens à oublier les débuts, la semaine dernière, de Galactica, un grand modèle de langage que les ingénieurs de Meta ont formé sur des articles scientifiques et qui présentait des faussetés comme des faits, et qui a été mis hors ligne après trois jours de critiques de la part de la communauté scientifique. Galactica a été conçu comme un moteur de recherche universitaire sous stéroïdes et était censé aider les scientifiques. Mais au lieu de cela, il a craché sans réfléchir des absurdités biaisées et incorrectes.

Quelques heures à peine après la mise en ligne, les utilisateurs de Twitter ont commencé à publier des exemples où l'IA de Meta générait des recherches complètement fausses et racistes. Un utilisateur a découvert que Galactica inventait des informations sur des chercheurs de l'université de Stanford créant un logiciel "gaydar" pour trouver les homosexuels sur Facebook. Un autre a réussi à faire en sorte que le robot crée une fausse étude sur les avantages de manger du verre pilé. L'agent d'IA de Meta filtre aussi complètement les requêtes telles que la théorie des homosexuels, le sida et le racisme.

Cependant, l'un des aspects les plus déconcertants de cette affaire est sans doute le fait qu'il créait des études entièrement fausses et les attribuait à de véritables scientifiques. Michael Black, directeur de l'Institut Max Planck pour les systèmes intelligents en Allemagne, a signalé dans un fil de discussion sur Twitter plusieurs cas dans lesquels Galactica créait de fausses citations de chercheurs du monde réel. Dans le même temps, ces citations étaient attribuées à des textes très convaincants générés par le modèle, ce qui semblait, à première vue, tout à fait plausible et réel. L'IA BlenderBot 3 de Meta avait suscité les mêmes polémiques en août.

Les premiers tests de BlenderBot 3, un chatbot publié par Meta en août, ont révélé qu'il est loin d'être l'agent conversationnel hautement performant que l'entreprise a prétendu. Par exemple, BlenderBot 3 a dit du PDG Mark Zuckerberg qu'il est "effrayant et manipulateur". Il a également affirmé que "Zuckerberg est un bon homme d'affaires, mais ses pratiques commerciales ne sont pas toujours éthiques". D'autres conversations avec BlenderBot 3 ont montré qu'il comporte des biais raciaux et répand des théories du complot. Il a décrit Facebook comme ayant des problèmes de confidentialité et que la plateforme répand de fausses informations.

Par ailleurs, Cicero de Meta pourrait être utilisée pour manipuler les humains en se faisant passer pour des personnes et en les trompant de manière potentiellement dangereuse, selon le contexte. Ainsi, Meta espère que d'autres chercheurs pourront s'appuyer sur son code "de manière responsable". Il affirme avoir pris des mesures pour détecter et supprimer les "messages toxiques dans ce nouveau domaine", ce qui fait probablement référence au dialogue que Cicero a appris des textes Internet qu'il a ingérés, ce qui constitue toujours un risque pour les grands modèles de langage.

Sources : Meta, Cicero (PDF), Article des chercheurs de Meta dans la revus Science, Référentiel GitHub du projet Cicero

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de l'IA Cicero de Meta ?

Selon vous, quels pourrait être les cas d'utilisation d'une telle IA ?

Selon vous, Cicero pourrait-elle être détournée de son usage initial ? Si oui, à quelle fin ?

Voir aussi

Le nouveau chatbot d'IA de Meta affirme que le PDG Mark Zuckerberg est "effrayant et manipulateur", l'agent conversationnel tient également des propos racistes et répand des théories du complot

Le responsable de l'IA de Meta publie un document sur la création d'une intelligence artificielle "autonome", et suggère que les approches actuelles ne mèneront jamais à une véritable intelligence

Meta, la société mère de Facebook, licencie 60 personnes « au hasard » à l'aide d'un algorithme, Xsolla, une société dans l'industrie du jeu, licencie 150 employés également à l'aide d'un algorithme

**Anselme45** · 24/11/2022, 12h12

"serait capable de tromper les joueurs humains"

Mouais, grande idée d'utiliser le conditionnel "serait".

Diplomacy est un jeu qui se joue avec 7 joueurs sur une carte de l'Europe. Les règles sont simples mais la réussite dépend des accords, des alliances qui sont passé entre les joueurs lors de discussions en tête-à-tête ou des trahisons. Plus qu'un jeu de stratégie, c'est un jeu "social" qui met en oeuvre l'humain au plus profond de son fonctionnement: Faut-il faire confiance à son interlocuteur? Faut-il le trahir? Si oui, à quel moment? Le jeu met en évidence les caractéristiques de son interlocuteur: Le beau-parleur, le magouilleur, etc... Après quelques tours de jeu, on peut lire une personnalité à livre ouvert.

Et bien, je suis prêt à parier que l'IA de Meta face à 6 joueurs humains sera très vite détectée et contrée par un réflexe tout à fait prévisible: Les humains vont se liguer contre l'IA. En quelque tours de jeu, l'IA sera rayée de la carte (c'est d'autant plus facile que !a dynamique du jeu transforme très vite une réussite en défaite: Tu pars avec 3 unités liées à 3 zones possédant un arsenal. Tu gagnes une zone possédant un arsenal? Tu gagnes une unité de plus. Tu perds une zone avec un arsenal? Tu perds une de tes unités! Et si tu perds une unité? Cette unité a été gagnée par un de tes adversaires).

Meta crée une IA qui peut jouer au jeu de stratégie Diplomacy et serait capable de tromper les joueurs humains

Intelligence artificielle

Discussions similaires

Partager

Partager