OpenAI lance un agent d'IA autonome capable de travailler à la place des gens

**Anthony** · 14/11/2024, 07h13

OpenAI lance un agent d'IA capable de travailler à la place des gens, l'agent autonome, dont le nom de code est « Operator », devrait être disponible à partir du mois de janvier 2025

OpenAI s'attaque à la prochaine vague de l'intelligence artificielle (IA) avec un agent autonome qu'elle prévoit apparemment de lancer en janvier 2025. L'agent d'IA, dont le nom de code est « Operator », peut effectuer des tâches au nom d'une personne, y compris le codage et la réservation de voyages, ont rapporté des sources anonymes familières avec le sujet.

OpenAI est une organisation américaine de recherche en intelligence artificielle (IA) fondée en décembre 2015 et dont le siège se trouve à San Francisco, en Californie. Sa mission est de développer une intelligence générale artificielle (AGI) « sûre et bénéfique », qu'elle définit comme « des systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches économiquement utiles ».

En tant qu'organisation leader dans le boom actuel de l'IA, OpenAI est connue pour la famille GPT de grands modèles de langage, la série DALL-E de modèles texte-image et un modèle texte-vidéo appelé Sora. Le lancement par OpenAI de ChatGPT en novembre 2022 est considéré comme le catalyseur d'un intérêt généralisé pour l'IA générative.

OpenAI prévoit de lancer l'agent d'IA en tant qu'aperçu de recherche et par le biais de son interface de programmation d'applications (API), ont indiqué les dirigeants d'OpenAI lors d'une réunion qui s'est tenue le mercredi 13 novembre 2024.

La startup travaille sur d'autres projets liés à l'agent d'IA, notamment un outil capable d'effectuer des tâches dans un navigateur web. Cet outil serait sur le point d'être achevé.

L'investisseur et partenaire de la startup, Microsoft, a annoncé en octobre que les utilisateurs de Copilot AI pourraient créer leurs propres agents autonomes dans Copilot Studio à partir de ce mois-ci. Les agents autonomes peuvent « comprendre la nature de votre travail et agir en votre nom », a déclaré Microsoft.

En juillet, le PDG de Nvidia, Jensen Huang, et le PDG de Meta, Mark Zuckerberg, ont évoqué un avenir où tout le monde disposerait d'un assistant d'IA.

« Chaque restaurant, chaque site web aura probablement, à l'avenir, ces IA », a déclaré Jensen Huang à propos de la plateforme AI Studio de Meta, qui permet aux utilisateurs et aux créateurs de générer des personnages d'IA à leur image qui peuvent les aider dans différentes tâches.

Mark Zuckerberg a ajouté : « Tout comme chaque entreprise dispose d'une adresse électronique, d'un site web et d'un compte de médias sociaux, je pense qu'à l'avenir, chaque entreprise disposera d'une IA ».

Entre-temps, OpenAI a lancé en octobre la capacité de ChatGPT à effectuer des recherches sur le web. ChatGPT search fournit des liens vers des sources web pertinentes dans ses réponses, « pour lesquelles il aurait fallu auparavant aller sur un moteur de recherche », a déclaré OpenAI. Grâce à la recherche sur le web dans ChatGPT, les utilisateurs peuvent poser des questions « d'une manière plus naturelle et conversationnelle ».

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative d'OpenAI crédible ou pertinente ?

Voir aussi :

Microsoft prévoit de permettre aux entreprises de créer leurs propres employés virtuels alimentés par l'IA, alors que la prochaine itération de Copilot intégrera des agents autonomes

Le PDG de Nvidia, Jensen Huang, a déclaré que l'industrie pourrait atteindre une forme d'AGI d'ici à cinq ans, mais précise que ce calendrier dépend de la définition que l'on donne à la technologie

Mark Zuckerberg imagine un avenir où les créateurs de contenu créent des clones d'eux-mêmes à l'aide de l'IA, alors que la faible qualité du contenu généré par l'IA contribue à la dégradation de l'état du Web

**Jade Emy** · 24/01/2025, 17h47

OpenAI a publié un aperçu de recherche de son nouvel agent d'IA Operator, qui contrôle votre navigateur en tapant, cliquant et défilant pour effectuer des tâches à votre place sur le web.

OpenAI lance en aperçu de recherche d'Operator, un agent d'intelligence artificielle qui exécute des tâches à votre place sur le web. Operator peut utiliser son propre navigateur en "tapant, en cliquant et en faisant défiler" pour effectuer des tâches pour vous. La société indique qu'Operator est disponible pour les utilisateurs de ChatGPT Pro aux États-Unis, mais elle prévoit d'offrir l'outil à un plus grand nombre d'utilisateurs dans les catégories Plus, Team et Enterprise.

OpenAI s'attaque à la prochaine vague de l'intelligence artificielle (IA) avec un agent autonome. L'agent d'IA, dont le nom de code est "Operator", peut effectuer des tâches au nom d'une personne, y compris le codage et la réservation de voyages. Selon une réunion des dirigeants d'OpenAI en novembre 2024, l'éditeur de ChatGPT prévoit de lancer l'agent d'IA en tant qu'aperçu de recherche et par le biais de son interface de programmation d'applications (API).

Le 23 janvier 2025, OpenAI a publié un aperçu de recherche de son nouvel agent d'IA Operator, qui devrait "aller sur le web pour effectuer des tâches à votre place". Dans un billet de blog, la société technologique explique que l'agent sera capable d'interagir avec son propre navigateur en "tapant, en cliquant et en faisant défiler".

Cette fonctionnalité est disponible pour les utilisateurs américains de ChatGPT Pro, qui coûte 200 dollars par mois. Cela dit, comme elle est encore en mode recherche, OpenAI reconnaît qu'il y aura des limitations et qu'elle continuera à évoluer en fonction des commentaires des utilisateurs. La société indique qu'elle prévoit d'offrir l'outil à un plus grand nombre d'utilisateurs dans les catégories Plus, Team et Enterprise.

Lors d'un livestream, le PDG Sam Altman a déclaré que "[Operator] sera bientôt disponible dans d'autres pays", mais il a admis qu'il faudrait "un certain temps" avant qu'il ne soit déployé en Europe. Même si l'aperçu initial de la recherche est disponible, OpenAI indique qu'elle prévoit d'intégrer Operator dans toutes ses applications ChatGPT prochainement.

OpenAI affirme collaborer avec des entreprises telles que DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber et d'autres pour s'assurer que le système "répond aux besoins du monde réel tout en respectant les normes établies".

OpenAI explique qu'Operator fonctionne sur un nouveau modèle appelé Computer-Using Agent (CUA), qui combine les capacités de vision de GPT-4o avec un raisonnement avancé alimenté par l'apprentissage par renforcement. Il est formé pour interagir avec les interfaces utilisateur graphiques (IUG), c'est-à-dire les boutons, les menus et les champs de texte que l'on voit sur un écran.

Avec Operator, le modèle peut "voir" en analysant des captures d'écran et "interagir" à l'aide de la souris et du clavier. Cela l'aide à naviguer sur le web et à prendre des mesures sans dépendre d'intégrations d'API personnalisées. S'il rencontre un problème ou commet une erreur, il utilise ses capacités de raisonnement pour s'autocorriger. Et lorsqu'il est vraiment bloqué, il vous redonne le contrôle.

Cette annonce semble confirmer les prévisions de Goldman Sachs. Selon Marco Argenti, DSI de Goldman Sachs, pour 2025, l'intelligence artificielle (IA) sera dominée par la maturation des codes d'IA en tant que "travailleurs" d'entreprise qui peuvent prendre en charge les processus d'entreprise et être gérés comme des employés. Il ajoute que cela créera les conditions pour que les entreprises finissent par "employer" et former les travailleurs IA pour qu'ils fassent partie d'équipes hybrides composées d'humains et d'IA travaillant ensemble.

Voici l'annonce d'OpenAI concernant Operator :

Aujourd'hui, nous lançons Operator, un agent capable d'aller sur le web pour effectuer des tâches à votre place. En utilisant son propre navigateur, il peut consulter une page web et interagir avec elle en tapant, en cliquant et en faisant défiler la page. Il s'agit actuellement d'un aperçu de recherche, ce qui signifie qu'il a des limites et qu'il évoluera en fonction des commentaires des utilisateurs. Operator est l'un de nos premiers agents, c'est-à-dire des IA capables d'effectuer un travail pour vous de manière autonome : vous lui confiez une tâche et il l'exécute.

On peut demander à Operator de s'occuper d'une grande variété de tâches de navigation répétitives telles que remplir des formulaires, commander des courses et même créer des mèmes. La possibilité d'utiliser les mêmes interfaces et outils que ceux avec lesquels les humains interagissent quotidiennement élargit l'utilité de l'IA, en aidant les gens à gagner du temps sur les tâches quotidiennes tout en ouvrant de nouvelles opportunités d'engagement pour les entreprises.

Pour garantir un déploiement sûr et itératif, nous commençons modestement. Dès aujourd'hui, Operator est disponible pour les utilisateurs Pro aux États-Unis sur operator.chatgpt.com. Cet aperçu de la recherche nous permet d'apprendre de nos utilisateurs et de l'écosystème plus large, en affinant et en améliorant au fur et à mesure. Nous prévoyons d'étendre l'application aux utilisateurs Plus, Team et Enterprise et d'intégrer ces fonctionnalités dans ChatGPT à l'avenir.

Comment fonctionne Operator

Operator est alimenté par un nouveau modèle appelé Computer-Using Agent (CUA). Combinant les capacités de vision du GPT-4o avec un raisonnement avancé grâce à l'apprentissage par renforcement, le CUA est formé pour interagir avec les interfaces utilisateur graphiques (IUG), c'est-à-dire les boutons, les menus et les champs de texte que l'on voit sur un écran.

L'opérateur peut "voir" (par le biais de captures d'écran) et "interagir" (en utilisant toutes les actions permises par une souris et un clavier) avec un navigateur, ce qui lui permet d'agir sur le web sans nécessiter d'intégrations d'API personnalisées.

S'il rencontre des difficultés ou commet des erreurs, Operator peut tirer parti de ses capacités de raisonnement pour s'auto-corriger. Lorsqu'il est bloqué et qu'il a besoin d'aide, il redonne simplement le contrôle à l'utilisateur, garantissant ainsi une expérience fluide et collaborative.

Bien que le CUA n'en soit qu'à ses débuts et qu'elle ait ses limites, elle établit de nouveaux résultats de référence dans WebArena et WebVoyager, deux tests de référence clés pour l'utilisation des navigateurs.

Comment utiliser Operator

Pour commencer, décrivez simplement la tâche que vous souhaitez accomplir et Operator se chargera du reste. Les utilisateurs peuvent choisir de prendre le contrôle du navigateur à distance à tout moment, et Operator est formé pour demander proactivement à l'utilisateur de prendre le contrôle pour les tâches qui nécessitent une connexion, des détails de paiement, ou lors de la résolution de CAPTCHAs.

Les utilisateurs peuvent personnaliser leurs flux de travail dans Operator en ajoutant des instructions personnalisées, soit pour tous les sites, soit pour des sites spécifiques. Operator permet aux utilisateurs d'enregistrer des instructions pour un accès rapide sur la page d'accueil, ce qui est idéal pour les tâches répétitives. À l'instar de l'utilisation de plusieurs onglets dans un navigateur, les utilisateurs peuvent demander à Operator d'exécuter plusieurs tâches simultanément en créant de nouvelles conversations.

Prochaines étapes

CUA dans l'API : OpenAI prévoit d'exposer prochainement le modèle qui alimente Operator, CUA, dans l'API afin que les développeurs puissent l'utiliser pour créer leurs propres agents utilisant l'ordinateur.
Capacités améliorées : OpenAI prévoit d'améliorer la capacité d'Operator à gérer des flux de travail plus longs et plus complexes.
Un accès plus large : OpenAI prévoit d'étendre l'accès à Operator aux utilisateurs Plus, Team et Enterprise et d'intégrer ses capacités directement dans ChatGPT à l'avenir. Mais OpenAI ne procèderait à cela qu'une fois être convaincus de sa sécurité et de sa facilité d'utilisation à grande échelle.

Voici les informations qu'OpenAI a partagées concernant la sécurité d'Operator :

Sécurité et protection de la vie privée

La sécurité d'utilisation d'Operator est une priorité absolue, avec trois niveaux de protection pour éviter les abus et garantir que les utilisateurs gardent le contrôle.

Tout d'abord, Operator est formé pour s'assurer que la personne qui l'utilise garde toujours le contrôle et lui demande son avis à des moments critiques.

Mode prise de contrôle : Operator demande à l'utilisateur de prendre le contrôle lorsqu'il saisit des informations sensibles dans le navigateur, telles que les identifiants de connexion ou les informations de paiement. En mode prise en charge, Operator ne collecte pas les informations saisies par l'utilisateur et n'en fait pas de capture d'écran.
Confirmations de l'utilisateur : Avant de finaliser une action importante, telle que la soumission d'une commande ou l'envoi d'un courrier électronique, Operator doit demander l'approbation de l'utilisateur.
Limitation des tâches : L'opérateur est formé pour refuser certaines tâches sensibles, telles que les transactions bancaires ou celles qui nécessitent des décisions à fort enjeu, comme la prise d'une décision sur une demande d'emploi.
Mode Surveillance (Watch mode) : Sur les sites particulièrement sensibles, tels que la messagerie électronique ou les services financiers, Operator doit être surveillé de près, ce qui permet aux utilisateurs de détecter directement toute erreur potentielle.

Ensuite, nous avons facilité la gestion de la confidentialité des données dans Operator.

Formation à la désactivation : En désactivant l'option « Améliorer le modèle pour tout le monde » dans les paramètres de ChatGPT, les données d'Operator ne seront pas utilisées pour entraîner nos modèles.
Gestion transparente des données : Les utilisateurs peuvent supprimer toutes les données de navigation et se déconnecter de tous les sites en un seul clic dans la section Vie privée des paramètres d'Operator. Les conversations passées dans Operator peuvent également être supprimées en un seul clic.

Enfin, nous avons mis en place des défenses contre les sites web adverses qui pourraient tenter d'induire Operator en erreur par le biais d'invites cachées, de codes malveillants ou de tentatives d'hameçonnage :

Navigation prudente : Operator est conçu pour détecter et ignorer les injections d'invites.
Surveillance : Un « modèle de surveillance » dédié surveille les comportements suspects et peut interrompre la tâche si quelque chose semble anormal.

Pipeline de détection : Des processus d'examen automatisés et humains identifient en permanence les nouvelles menaces et mettent rapidement à jour les mesures de protection.

Nous savons que des acteurs malveillants peuvent essayer d'utiliser cette technologie à mauvais escient. C'est pourquoi nous avons conçu Operator pour refuser les requêtes nuisibles et bloquer les contenus interdits. Nos systèmes de modération peuvent émettre des avertissements, voire révoquer l'accès en cas de violations répétées, et nous avons intégré des processus d'examen supplémentaires pour détecter et traiter les abus. Nous fournissons également des conseils sur la manière d'interagir avec Operator dans le respect de nos politiques d'utilisation.

Bien qu'Operator soit conçu avec ces garanties, aucun système n'est sans faille et il s'agit encore d'un aperçu de la recherche ; nous nous engageons à l'améliorer en permanence grâce à un retour d'information sur le monde réel et à des tests rigoureux.

Et vous ?

Pensez-vous qu'Operator est crédible ou pertinent ?

Quel est votre avis sur le sujet ?

Voir aussi :

Les capacités autonomes de ChatGPT s'étendent avec des tâches programmées et des rappels. La nouvelle fonctionnalité s'appelle Tasks et elle est lancée en bêta les utilisateurs de ChatGPT Plus, Team et Pro

Google dévoile le projet Mariner, son premier agent d'IA autonome capable de naviguer sur les navigateurs web, de contrôler le curseur et de remplir des formulaires pour reproduire les interactions en ligne

L'IA s'autoproclame administrateur système et provoque la destruction de la séquence de démarrage d'un ordinateur Linux, relançant le débat sur l'absence de conscience et de bon sens dans cette technologie