SIMA : un nouvel agent d'IA conçu pour interagir avec les mondes virtuels en 3D sur la base du langage naturel

**Mathis Lucas** · 14/03/2024, 19h22

La nouvelle IA de Google pour les jeux vidéo vise à dépasser le stade de l'"adversaire surhumain" et à devenir un "partenaire obéissant"
qui interprète et exécute des instructions en langage naturel

Google DeepMind dévoile un nouvel agent d'IA appelé SIMA (Scalable Instructable Multiworld Agent) pour les environnements virtuels en 3D après les succès d'AlphaStar et d'AlphaGo. Ce nouvel agent d'IA polyvalent peut exécuter des tâches dans divers environnements de jeux vidéo sur la base d'instructions en langage naturel, ce qui marque un tournant vers une approche généralisée de la recherche sur l'IA dans les jeux. Google DeepMind précise que le projet est toujours expérimental et qu'il y a encore un long chemin à parcourir. L'année dernière, Nvidia a lancé une plateforme qui permet aux joueurs de converser avec les personnages non jouables (PNJ).

SIMA : un agent d'IA conçu pour interagir avec des mondes virtuels en 3D

SIMA est un nouvel agent d'IA conçu pour interagir avec des mondes virtuels en 3D sur la base d'instructions en langage naturel. Il comprend des modèles de vision artificielle et de langage préentraînés qui ont été affinés à partir de données de jeu. Le langage est essentiel pour que SIMA comprenne les tâches qui lui sont confiées et les accomplisse conformément aux instructions. Selon Google DeepMind, l'interface simple de SIMA lui permet de fonctionner potentiellement dans n'importe quel monde virtuel avec lequel un humain peut interagir, ouvrant ainsi la voie à un nouveau niveau de polyvalence pour les agents d'IA.

Nom : Capture d'écran 2024-03-14 191500.png
Affichages : 25751
Taille : 505,6 Ko

« Apprendre à jouer à un seul jeu vidéo est un exploit technique pour un système d'IA, mais apprendre à suivre des instructions dans divers contextes de jeu pourrait déboucher sur des agents d'IA plus utiles dans n'importe quel environnement. Notre recherche montre comment nous pouvons traduire les capacités des modèles d'IA avancés en actions utiles dans le monde réel par le biais d'une interface linguistique », explique Google DeepMind dans un billet de blogue sur SIMA. Les principales caractéristiques de SIMA sont :

capacité à percevoir et à comprendre différents environnements 3D par le biais d'images uniquement ;
capacité à suivre des instructions en langage naturel fournies par un utilisateur ;
utilisation du clavier et de la souris pour interagir avec les environnements ;
l'interface ne nécessite que des images et du texte, pas d'API ou de codes sources spécifiques au jeu.

Méthode de formation de SIMA

Les chercheurs de Google DeepMind ont fait équipe avec des studios et des éditeurs tels que Hello Games (No Man's Sky), Tuxedo Labs (Teardown) et Coffee Stain (Valheim et Goat Simulator 3) pour former SIMA sur neuf jeux. L'équipe de recherche a en outre utilisé quatre environnements de recherche, dont un construit en Unity dans lequel les agents doivent former des sculptures à l'aide de blocs de construction. SIMA a ainsi pu apprendre à partir d'une série d'environnements et de contextes, avec une variété de styles graphiques et de perspectives (à la première et à la troisième personne). L'équipe explique son approche :

« Nous espérons que SIMA et d'autres recherches sur les agents pourront utiliser les jeux vidéo comme "bacs à sable" pour mieux comprendre comment les systèmes d'IA peuvent devenir plus utiles ». Chaque jeu du portefeuille de SIMA ouvre un nouveau monde virtuel interactif, comprenant une gamme de compétence à apprendre, allant de la simple navigation et de l'utilisation des menus à l'extraction de ressources, au pilotage d'un vaisseau spatial ou la fabrication d'un casque. Une autre approche de l'équipe a consisté à enregistrer des joueurs humains dans des jeux qui se donnaient des instructions sur des tâches.

Nom : 1452.png
Affichages : 2438
Taille : 165,0 Ko

En outre, les joueurs ont été invités à rejouer leur propre jeu et à décrire les instructions qui les ont conduits à agir. Cette puissante méthode de collecte de données a permis à l'agent SIMA d'apprendre les bases visuelles du langage à partir de l'expérience réelle des humains dans les environnements. Ensuite, l'agent a été évalué sur sa capacité à accomplir près de 1 500 tâches uniques à travers les jeux en se basant uniquement sur des images à l'écran et des instructions textuelles.

En somme, l'agent d'IA SIMA comprend des modèles de vision préentraînés et un modèle central doté d'une mémoire, qui interprète les images et les entrées en langage naturel afin de générer des actions au clavier et à la souris pour le jeu. Les chercheurs précisent que SIMA n'a pas besoin du code source d'un jeu ou d'un accès à l'API ; il fonctionne sur les versions commerciales d'un jeu. Il n'a besoin que de deux entrées : ce qui est affiché à l'écran et les instructions de l'utilisateur.

L'agent est évalué sur des compétences de base dans plusieurs catégories, notamment la navigation ("tourner à droite"), l'interaction avec des objets ("ramasser des champignons") et des tâches basées sur des menus, telles que l'ouverture d'une carte ou la fabrication d'un objet. À terme, Google DeepMind espère pouvoir ordonner à des agents d'effectuer des tâches plus complexes et en plusieurs étapes en se basant sur des messages en langage naturel, tels que "trouver des ressources et construire un camp".

Les performances de SIMA

Selon le billet de blogue de Google DeepMind, l'évaluation de SIMA sur 600 compétences de base démontre une maîtrise de la navigation, de l'interaction avec les objets et de l'utilisation des menus, en se concentrant sur des tâches réalisables en peu de temps. En matière de performances, contrairement aux modèles d'IA spécialisés formés pour des jeux particuliers, SIMA obtient de meilleurs résultats en généralisant ses connaissances à de multiples environnements et montre des compétences dans des jeux inédits.

De manière plus générale, toutefois, la réussite de SIMA variait considérablement en fonction des différents types de commandes ; le modèle a obtenu environ 75 % de réussite pour les tâches de conduite contre 40 % pour les tâches de marche, par exemple. Notamment, le billet de blogue de Google DeepMind indique qu'un agent SIMA formé sur les neuf jeux de l'ensemble des chercheurs a nettement surpassé les agents spécialisés formés uniquement sur chacun d'entre eux, montrant ainsi une plus grande capacité globale.

Nom : simaresults3.png
Affichages : 2394
Taille : 32,5 Ko

Le rapport technique quantifie cette amélioration à 67 % lorsque les jeux extérieurs sont inclus dans les données d'entraînement, un signe de "transfert positif" dans différents environnements qui constitue une "étape clé" dans les résultats de SIMA. Ce qui est particulièrement intéressant, c'est qu'une version de SIMA qui a été entraînée dans les huit autres jeux et qui a ensuite joué à l'autre jeu a obtenu des résultats presque aussi bons en moyenne qu'un agent qui n'a été entraîné qu'à ce dernier jeu.

Google DeepMind indique : « cette capacité à fonctionner dans des environnements totalement nouveaux met en évidence la capacité de SIMA à généraliser au-delà de son entraînement. Il s'agit d'un premier résultat prometteur, mais des recherches supplémentaires sont nécessaires pour que SIMA atteigne des performances humaines dans des jeux vus et non vus ». Dans No Man's Sky, par exemple, SIMA n'a réussi que 34 % des tâches testées, contre 60 % pour un humain.

Selon les chercheurs, le faible score de l'humain reflète la difficulté des tâches qu'ils ont considérées dans ce projet et la rigueur dans les critères d'évaluation. Ils ont également déclaré que la plupart des échecs de SIMA sont liés à "la compréhension fine" de l'environnement. Alors que SIMA peut se débrouiller avec une commande telle que "coupez un arbre", par exemple, amener l'agent à comprendre comment cibler un arbre spécifique décrit par l'utilisateur est quelque chose sur lequel les chercheurs continuent de travailler activement.

Le lancement de SIMA ouvre la voie à de nouveaux types d'agents d'IA à l'avenir

Avec SIMA, Google DeepMind marque une étape importante dans le développement du premier agent d'IA démontrant une véritable généralisation dans divers mondes virtuels en 3D. En outre, en exploitant les jeux vidéo comme un bac à sable, SIMA montre comment le langage naturel peut ancrer les capacités de puissants modèles d'apprentissage profond dans des comportements intelligents du monde réel. Bien qu'elle en soit à ses débuts, cette recherche jette les bases de futures améliorations des systèmes d'IA.

Nom : simatasks-640x520.png
Affichages : 2412
Taille : 184,4 Ko

Elle vise à combler le fossé entre les environnements virtuels et les applications pratiques, pour finalement favoriser des solutions d'IA plus utiles et plus adaptables. L'équipe s'attend à ce que l'IA devienne plus polyvalente et généralisable au fur et à mesure qu'elle sera exposée à davantage d'environnements de formation. Par ailleurs, les chercheurs de Google DeepMind espèrent que les futures versions de l'agent amélioreront la compréhension de SIMA et sa capacité à effectuer des tâches plus complexes.

« En fin de compte, nos recherches visent à mettre au point des systèmes et des agents d'IA plus généraux, capables de comprendre et d'exécuter en toute sécurité un large éventail de tâches d'une manière qui est utile aux personnes en ligne et dans le monde réel », a déclaré Google DeepMind. L'année dernière, Nvidia a dévoilé une plateforme d'IA appelée "Avatar Cloud Engine for Games" (ACE for Games) qui permet aux joueurs de converser avec les personnages non jouables (PNJ) dans les environnements de jeux vidéo.

« Le service de fonderie ACE for Games aidera les développeurs à affiner les modèles pour leurs jeux, puis à les déployer via Nvidia DGX Cloud, les PC GeForce RTX ou sur site pour l'inférence en temps réel. Les modèles sont optimisés pour la latence, une exigence critique pour des interactions immersives et réactives dans les jeux », a déclaré l'entreprise.

Sources : Google DeepMind, rapport technique

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du système d'IA SIMA et de ses performances ?

Quelles implications SIMA pourrait-il avoir sur les secteurs de l'IA et des jeux vidéo ?

Voir aussi

Nvidia présente une plateforme d'IA appelée "Avatar Cloud Engine for Games" qui permet aux joueurs de converser avec les personnages non jouables

L'IA vous permet désormais d'avoir de vraies conversations avec les PNJ dans les jeux vidéo : le cas de Matrix Awakens. Cette évolution pourrait donner lieu à une multitude de scénarios possibles

Le PDG de Nvidia, Jensen Huang, affirme que ceux qui n'ont pas d'expertise en matière d'IA seront laissés pour compte, et ajoute que l'IA est en bonne voie pour réinventer l'informatique de A à Z