Le test de Turing serait dépassé et ne reflèterait pas la véritable intelligence des chatbots modernes

**Stéphane le calme** · 21/06/2023, 23h00

Mustafa Suleyman estime que le test de Turing est dépassé et ne reflète pas la véritable intelligence des chatbots modernes,
le cofondateur de DeepMind propose une version « moderne » de ce test

Le test de Turing est une méthode classique pour évaluer l’intelligence artificielle (IA) basée sur sa capacité à imiter la conversation humaine. Mais pour Mustafa Suleyman, cofondateur de DeepMind, le célèbre laboratoire d’IA racheté par Google, ce test est dépassé et ne reflète pas la véritable intelligence des chatbots modernes.

L'un des cofondateurs du laboratoire de recherche sur l'IA de Google, DeepMind, pense que les chatbots d'IA comme ChatGPT devraient être testés sur leur capacité à transformer 100 000 dollars en 1 million de dollars dans un « test de Turing moderne » qui mesure l'intelligence de type humain.

Mustafa Suleyman, ancien responsable de l'IA appliquée chez DeepMind et maintenant PDG et cofondateur d'Inflection AI, a publié un nouveau livre intitulé The Coming Wave: Technology, Power, and the Twenty-first Century's Greatest Dilemma.

Dans le livre, Suleyman a rejeté le test de Turing traditionnel, car il n'est « pas clair s'il s'agit d'une étape significative ou non », a rapporté Bloomberg mardi.

« Cela ne nous dit rien sur ce que le système peut faire ou comprendre, rien sur s'il a établi des monologues internes complexes ou s'il peut s'engager dans une planification sur des horizons temporels abstraits, ce qui est la clé de l'intelligence humaine », a-t-il ajouté.

Le test de Turing a été introduit par Alan Turing dans les années 1950 pour déterminer si une machine possède une intelligence de niveau humain. Pendant le test, les évaluateurs humains déterminent s'ils parlent à un humain ou à une machine. Si la machine peut passer pour un humain, alors elle réussit le test.

Au lieu de comparer l'intelligence de l'IA à celle des humains, Suleyman propose de confier à un bot des objectifs et des tâches à court terme qu'il peut accomplir avec peu d'intervention humaine dans un processus connu sous le nom « d'intelligence artificielle capable » ou ACI en anglais (pour Artificial Capable Intelligence) .

Pour atteindre l'ACI, Suleyman dit que les robots IA doivent réussir un nouveau test de Turing dans lequel ils reçoivent un investissement initial de 100 000 $ et doivent le transformer en 1 million de dollars. Dans le cadre du test, le bot doit rechercher une idée d'entreprise de commerce électronique, élaborer un plan pour le produit, trouver un fabricant, puis vendre l'article.

Il s'attend à ce que l'IA franchisse cette étape dans les deux prochaines années.

« Nous ne nous soucions pas seulement de ce qu'une machine peut dire; nous nous soucions également de ce qu'elle peut faire », a-t-il écrit, selon Bloomberg.

Les limites de son test

Suleyman s’inspire des modèles de langage comme ChatGPT et Google Bard, qui sont capables de générer des textes cohérents et créatifs à partir d’un simple mot-clé. Il imagine qu’un chatbot intelligent pourrait utiliser ces modèles pour rechercher des opportunités d’affaires, concevoir un produit ou un service, trouver des fournisseurs et des clients, et gérer les transactions financières.

Il reconnaît toutefois que ce test présente des limites éthiques et pratiques. Par exemple, comment vérifier que le chatbot n’utilise pas des méthodes frauduleuses ou illégales pour gagner de l’argent ? Comment éviter que le chatbot ne nuise à l’environnement ou aux droits humains ? Comment protéger les données personnelles des utilisateurs ?

Suleyman affirme que son test n’a pas pour but de créer une intelligence artificielle générale (AGI), qui serait capable de réaliser toutes les tâches intellectuelles humaines. Il s’agit plutôt d’une façon de mesurer l’intelligence artificielle appliquée (AAI), qui se concentre sur des domaines spécifiques et concrets.

Il espère que son test encouragera les chercheurs en IA à se focaliser sur les problèmes réels du monde actuel, plutôt que sur des fantasmes futuristes. Il appelle également à une régulation plus stricte et plus transparente de l’IA, afin d’éviter les abus et les dérives.

Un grand potentiel économique

Selon McKinsey, l’IA générative pourrait générer entre 1400 et 13400 milliards de dollars de valeur ajoutée annuelle à l’économie mondiale d’ici 2030, en fonction du rythme d’adoption et de la réglementation. Les secteurs les plus susceptibles de bénéficier de l’IA générative sont ceux qui ont une forte intensité de données, une forte demande de créativité ou de personnalisation, et une faible automatisation actuelle. Parmi ces secteurs figurent les médias et le divertissement, le commerce électronique, l’éducation, la santé, la fabrication et les services financiers.

Pour réaliser ce potentiel, les entreprises devront surmonter les défis techniques, organisationnels et éthiques liés à l’utilisation de l’IA générative. Les défis techniques concernent la qualité, la fiabilité, la sécurité et la responsabilité des contenus générés. Les défis organisationnels concernent le développement des compétences, la gestion du changement, l’intégration des processus et la mesure de la performance. Les défis éthiques concernent le respect des droits d’auteur, de la vie privée, de la sécurité et de la moralité. Les entreprises devront adopter des principes et des pratiques éthiques pour utiliser l’IA générative de manière responsable et durable.

L'IA s'est introduite progressivement dans nos vies, que ce soit par le biais de la technologie qui alimente nos smartphones, des fonctions de conduite autonome des voitures ou des outils que les détaillants utilisent pour surprendre et ravir les consommateurs. En conséquence, ses progrès ont été presque imperceptibles. Des événements marquants, comme la victoire d'AlphaGo, un programme d'IA développé par DeepMind, sur un champion du monde de go en 2016, ont été célébrés, mais ont rapidement disparu de l'esprit du public.

Les applications d'IA générative telles que ChatGPT Copilot, Stable Diffusion et d'autres ont capturé l'imagination des gens du monde entier d'une manière qu'AlphaGo n'a pas connue, grâce à leur large utilité - presque tout le monde peut les utiliser pour communiquer et créer - et à leur capacité naturelle à avoir une conversation avec un utilisateur. Les dernières applications d'IA générative peuvent effectuer une série de tâches de routine, telles que la réorganisation et la classification de données. Mais c'est leur capacité à écrire des textes, à composer de la musique et à créer des œuvres d'art numériques qui a fait les gros titres et persuadé les consommateurs et les ménages d'expérimenter par eux-mêmes.

En conséquence, un plus grand nombre de parties prenantes sont confrontées à l'impact de l'IA générative sur les entreprises et la société, mais sans beaucoup de contexte pour les aider à le comprendre.

Nom : chat.png
Affichages : 2311
Taille : 234,9 Ko

La technologie de l'IA générative se développe à une grande vitesse...

ChatGPT d'OpenAI est sorti en novembre 2022 et a impressionné les utilisateurs par sa capacité à tenir des conversations informelles, à générer du code et à rédiger des essais. ChatGPT a stimulé le battage médiatique autour de l'industrie de l'IA générative.

Quatre mois après la sortie de ChatGPT, OpenAI a publié un nouveau grand modèle de langage, ou LLM, appelé GPT-4, dont les capacités ont été nettement améliorées. De même, en mai 2023, Claude, l'IA générative d'Anthropic, était capable de traiter 100 000 tokens de texte, soit environ 75 000 mots en une minute - la longueur d'un roman moyen - contre environ 9 000 tokens lors de son lancement en mars 2023.

En mai 2023, Google a annoncé plusieurs nouvelles fonctionnalités alimentées par l'IA générative, notamment Search Generative Experience et un nouveau LLM appelé PaLM 2 qui alimentera son chatbot Bard, parmi d'autres produits Google.

... mais invente souvent des faits et des sources

ChatGPT fait partie d’une famille de nouvelles technologies appelées IA générative qui peuvent tenir des conversations qui sont si organiques et normales que parfois ChatGPT semble avoir une volonté propre. Mais la technologie est notoirement imprécise et invente souvent des faits et des sources pour des faits qui sont complètement faux. Le produit concurrent de Google, Bard, a des problèmes similaires.

Mais rien de tout cela n’a empêché les gens d’utiliser cette technologie expérimentale comme si elle était une source d’information fiable.

Source : Bloomberg

Et vous ?

Pensez-vous que le test de Turing est dépassé ?

Que pensez-vous du test proposé par Mustafa Suleyman ? Est-il pertinent ?

Quels risques voyez-vous avec son test ?

Quels sont les exemples de produits ou de services que vous aimeriez voir créés par un chatbot « intelligent » ?

Quelles sont les alternatives possibles au test de Suleyman pour évaluer l’intelligence artificielle ?

Voir aussi :

Un avocat cite des affaires juridiques fictives inventées par ChatGPT, provoquant la fureur du juge et des sanctions potentielles. ChatGPT avait assuré à l'avocat que ces affaires étaient réelles

**bouye** · 22/06/2023, 01h40

En même temps, j'ai jamais trouvé l’énoncée du test de Turing tel qu'il m'a toujours été présenté comme étant bien formalisé : un humain n'arrive pas a distinguer si on interlocuteur masqué est un autre humain ou une machine. Ça semble être surtout un test très empirique et basé sur les biais de l’époque (assez intéressant quand on voit que Turing réfutait lui-même une objection émise en son temps par lady Lovelace comme étant le fruit d'un biais de son époque a elle).

Bref, cela me rappelle le discourt assez basique de mon prof de philo au lycée qui nous sortait que si les animaux étaient intelligent alors ils pourraient parler, en omettant l’évidence que nous pouvons parler car nous avons l'anatomie pour communiquer de cette manière (a la fois pour émettre et pour recevoir), que nous avons mis des dizaines de milliers d’années a construire ce moyen de communication (quand nos ancêtres sont-ils devenus "intelligents" ?), que la communication n'est pas en soit un signe d’intelligence (même les plantes communiquent entre elles) et qu'en plus qu'il y a d'autres manières de communiquer que le langage.

Voir :

**totozor** · 22/06/2023, 07h40

Envoyé par Stéphane le calme

Il reconnaît toutefois que ce test présente des limites éthiques et pratiques. Par exemple, comment vérifier que le chatbot n’utilise pas des méthodes frauduleuses ou illégales pour gagner de l’argent ? Comment éviter que le chatbot ne nuise à l’environnement ou aux droits humains ? Comment protéger les données personnelles des utilisateurs ?

La première limite ne serait pas que la réponse au problème posé est présente dans ses données sources?
Il vient de proposer cette méthode, certains, sur internet vont donner leur propre réponse, qui pourraient ensuite se retrouver comme source de l'IA évaluée.

Envoyé par Stéphane le calme

Il espère que son test encouragera les chercheurs en IA à se focaliser sur les problèmes réels du monde actuel, plutôt que sur des fantasmes futuristes. Il appelle également à une régulation plus stricte et plus transparente de l’IA, afin d’éviter les abus et les dérives.

C'est vrai qu'un problème réel de la vie de tout les jours est de faire fructifier un montant que la majorité de la population n'a pas.

**Jade Emy** · 17/05/2024, 03h27

Les gens ne peuvent pas distinguer GPT-4 d'un humain dans un test de Turing, GPT-4 a été jugé comme étant un humain dans 54% des cas, confirmant qu'une IA peut réussir un test de Turing.

Une nouvelle étude dans le cadre d'un test de Turing démontre que les gens ne peuvent pas distinguer GPT-4 d'un humain. GPT-4 a été considéré comme un humain dans 54 % des cas, ce qui est supérieur à ELIZA (22 %), mais inférieur aux humains réels (67 %). Ces résultats constituent la première démonstration empirique solide qu'un système artificiel réussit un test de Turing interactif à deux joueurs.

Le test de Turing, initialement appelé "jeu d'imitation" par Alan Turing en 1950, est un test de la capacité d'une machine à présenter un comportement intelligent équivalent ou indiscernable de celui d'un humain. Turing a proposé qu'un évaluateur humain juge les conversations en langage naturel entre un humain et une machine conçue pour générer des réponses semblables à celles d'un humain.

L'évaluateur serait conscient que l'un des deux partenaires de la conversation est une machine, et tous les participants seraient séparés les uns des autres. La conversation se limiterait à un canal textuel, tel qu'un clavier et un écran d'ordinateur, de sorte que le résultat ne dépendrait pas de la capacité de la machine à restituer les mots sous forme de discours.

Si l'évaluateur ne pouvait pas distinguer de manière fiable la machine de l'humain, on considérerait que la machine avait réussi le test. Les résultats du test ne dépendent pas de la capacité de la machine à donner des réponses correctes aux questions, mais seulement de la mesure dans laquelle ses réponses ressemblent à celles que donnerait un être humain.

Dans une nouvelle étude, des chercheurs ont évalué 3 systèmes (ELIZA, GPT-3.5 et GPT-4) dans le cadre d'un test de Turing randomisé, contrôlé et préenregistré. Les participants humains ont eu une conversation de 5 minutes avec un humain ou une IA, et ont jugé s'ils pensaient que leur interlocuteur était humain ou non. GPT-4 a été considéré comme un humain dans 54 % des cas, ce qui est supérieur à ELIZA (22 %), mais inférieur aux humains réels (67 %).

Ces résultats constituent la première démonstration empirique solide qu'un système artificiel réussit un test de Turing interactif à deux joueurs. Les résultats ont des implications pour les débats sur l'intelligence des machines et, plus urgemment, suggèrent que la tromperie par les systèmes d'IA actuels pourrait ne pas être détectée. L'analyse des stratégies et du raisonnement des participants suggère que les facteurs stylistiques et socio-émotionnels jouent un rôle plus important dans la réussite du test de Turing que les notions traditionnelles d'intelligence.

Nom : 1.jpg
Affichages : 5581
Taille : 70,6 Ko

Le GPT-4 réussit-il le test de Turing ?

Comment savoir si un système a réussi le test de Turing ? Dans son article de 1950, Turing prédit que d'ici la fin du siècle, les systèmes seront capables de "jouer le jeu de l'imitation si bien qu'un interrogateur moyen n'aura pas plus de 70 % de chances de faire la bonne identification après cinq minutes d'interrogatoire", ce qui a conduit à ce qu'un taux de réussite de 30 % devienne un objectif dans certaines discussions. Ce critère semble toutefois arbitraire, et il n'est pas certain que Turing l'ait considéré comme une définition du succès.

Une base de 50 % est plus justifiée car elle indique que les interrogateurs ne sont pas plus doués que le hasard pour identifier les machines. Cette définition est particulièrement pertinente pour déterminer si les utilisateurs peuvent identifier de manière fiable d'autres humains dans le cadre d'interactions en ligne. Un problème potentiel avec cette définition du succès, cependant, est qu'elle semble impliquer la confirmation de l'hypothèse nulle. Un système peut atteindre une précision qui ne se distingue pas statistiquement du hasard parce que les participants ont deviné au hasard, ou parce que l'expérience n'avait pas assez de puissance.

Dans cette analyse préenregistrée, les chercheurs ont abordé ce problème en utilisant la ligne de base ELIZA comme contrôle de la manipulation. Ce n'est que dans le cas où l'analyse montrait un taux de réussite inférieur au hasard pour ELIZA - ce qui indique que le modèle est suffisamment sensible pour détecter cette différence - mais pas pour GPT-4, que le modèle pouvait être considéré comme réussi. Sur la base de cette définition, le GPT-4 réussit cette version du test de Turing. De plus, les scores de confiance des participants et les justifications de leurs décisions suggèrent qu'ils n'ont pas deviné au hasard : les jugements selon lesquels GPT-4 était humain avaient un niveau de confiance moyen de 73 %.

À première vue, le faible taux de réussite des humains pourrait être surprenant. Si le test mesure la ressemblance avec l'être humain, celui-ci ne devrait-il pas être à 100 % ? En fait, le taux de réussite des humains reflète probablement l'évolution des hypothèses sur la qualité des systèmes d'IA et est similaire à d'autres estimations récentes. Lorsque les systèmes d'IA sont médiocres, il est facile d'identifier les humains. Au fur et à mesure que la confiance des interrogateurs dans les capacités des systèmes d'IA augmente, ils devraient être plus enclins à identifier à tort des humains comme étant de l'IA.

Nom : 2.jpg
Affichages : 1189
Taille : 61,2 Ko

Que mesure le test de Turing ?

À l'origine, Turing avait envisagé le jeu d'imitation comme mesure de l'intelligence. Diverses objections ont été soulevées à l'encontre de cette idée. Certains ont objecté que le test était trop difficile ou trop chauvin. Toutefois, ces préoccupations sont moins pressantes si un système semble réussir. D'autres ont fait valoir que c'était trop facile. Les interrogateurs humains, enclins à l'anthropomorphisme, pourraient être trompés par des systèmes inintelligents.

L'étude a tenté de répondre partiellement à cette préoccupation en incluant ELIZA comme base de référence, mais on peut toujours répondre qu'une base de référence plus stricte ou plus difficile est nécessaire. D'autres encore ont soutenu qu'aucun test comportemental ne peut mesurer l'intelligence ; que l'intelligence repose sur le bon type de mécanisme interne ou de relation causale avec le monde.

En fin de compte, il semble peu probable que le test de Turing fournisse des preuves nécessaires ou suffisantes de l'intelligence, mais au mieux un soutien probabiliste. Heureusement, le type de preuve qu'il fournit complète d'autres approches d'évaluation. Les repères traditionnels de la PNL et les instruments de psychologie cognitive sont bien définis et permettent d'obtenir des indices comportementaux spécifiques et attendus des capacités cognitives, mais ils sont nécessairement statiques, étroits et rigides. Le test de Turing, en revanche, est naturellement interactif, contradictoire et d'une portée potentiellement très large.

Les résultats présentés ici fournissent des preuves empiriques de ce que le test de Turing mesure. Tant en ce qui concerne les stratégies utilisées que les raisons invoquées pour justifier leurs décisions, les participants se sont davantage concentrés sur le style linguistique et les facteurs socio-émotionnels que sur les notions plus traditionnelles d'intelligence, telles que la connaissance et le raisonnement. Cela pourrait refléter l'hypothèse latente des interrogateurs selon laquelle l'intelligence sociale est devenue la caractéristique humaine la plus inimitable par les machines.

Source : "People cannot distinguish GPT-4 from a human in a Turing test"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Le test de Turing est dépassé et ne reflète pas la véritable intelligence des chatbots modernes, d'après le co-fondateur de DeepMind, qui propose une version plus moderne de ce test

Les jugements moraux donnés par ChatGPT4, le chatbot IA d'OpenAI, ont été "perçus comme étant de qualité supérieure à celle des humains", dans un document de recherche sur le test de Turing moral modifié

Les avis générés par l'IA trompent les humains, menaçant la confiance dans les plateformes en ligne, ces avis peuvent passer le test de Turing, selon une étude

**Stéphane le calme** · 16/06/2024, 09h53

Des chercheurs affirment que GPT-4 a réussi le test de Turing. Si la prouesse technique est remarquable,
des scientifiques font des critiques concernant l'approche trop simpliste de ce test

GPT-4, la dernière itération des modèles de langage de OpenAI, est réputée avoir réussi le test de Turing. Selon les chercheurs, cette version améliorée peut imiter le langage humain à un niveau indiscernable des vraies interactions humaines.

Nous interagissons avec l'intelligence artificielle (IA) en ligne non seulement plus que jamais, mais aussi plus que nous ne le pensons. Des chercheurs ont donc demandé à des personnes de converser avec quatre agents, dont un humain et trois types différents de modèles d'IA, pour voir si elles pouvaient faire la différence.

Le "test de Turing", proposé pour la première fois sous le nom de "jeu d'imitation" par l'informaticien Alan Turing en 1950, permet de déterminer si la capacité d'une machine à faire preuve d'intelligence est indiscernable de celle d'un être humain. Pour qu'une machine réussisse le test de Turing, elle doit être capable de parler à quelqu'un et de lui faire croire qu'elle est humaine.

Les scientifiques ont décidé de reproduire ce test en demandant à 500 personnes de parler avec quatre répondants, dont un humain et le programme d'IA des années 1960 ELIZA, ainsi que GPT-3.5 et GPT-4, l'IA qui alimente ChatGPT. Les conversations duraient cinq minutes, après quoi les participants devaient dire s'ils pensaient parler à un humain ou à une IA. Dans l'étude, publiée le 9 mai sur le serveur arXiv, les scientifiques ont constaté que les participants considéraient GPT-4 comme un humain dans 54 % des cas. ELIZA, un système préprogrammé avec des réponses mais sans grand modèle linguistique (LLM) ni architecture de réseau neuronal, a été jugé humain dans seulement 22 % des cas. GPT-3.5 a obtenu un score de 50 %, tandis que le participant humain a obtenu un score de 67 %.

« Les machines peuvent confabuler, rassembler des justifications plausibles a posteriori, comme le font les humains », a déclaré Nell Watson, chercheuse en IA à l'Institute of Electrical and Electronics Engineers (IEEE). « Elles peuvent être sujettes à des biais cognitifs, être embobinées et manipulées, et deviennent de plus en plus trompeuses. Tous ces éléments signifient que les systèmes d'IA expriment des faiblesses et des bizarreries semblables à celles de l'homme, ce qui les rend plus humains que les approches précédentes qui se limitaient à une liste de réponses préétablies ».

L'étude, qui s'appuie sur des décennies de tentatives pour faire passer le test de Turing à des agents d'IA, fait écho aux préoccupations communes selon lesquelles les systèmes d'IA considérés comme humains auront des « conséquences sociales et économiques généralisées ».

Un outil dépassé ?

Le test de Turing, développé par Alan Turing dans les années 1950, est un critère d’évaluation de l’intelligence d’une machine. Pour le réussir, un système doit être capable de mener une conversation avec un humain sans que celui-ci ne puisse distinguer s’il interagit avec une machine ou une autre personne.

Les scientifiques ont fait valoir qu'il existe des critiques valables concernant l'approche trop simpliste de ce test, en affirmant que « les facteurs stylistiques et socio-émotionnels jouent un rôle plus important dans la réussite du test de Turing que les notions traditionnelles d'intelligence ». Cela suggère que nous n'avons pas cherché l'intelligence des machines au bon endroit.

« L'intelligence brute ne suffit pas. Ce qui compte vraiment, c'est d'être suffisamment intelligent pour comprendre une situation, les compétences des autres et d'avoir l'empathie nécessaire pour relier ces éléments entre eux. Les capacités ne sont qu'une petite partie de la valeur de l'IA - sa capacité à comprendre les valeurs, les préférences et les limites des autres est également essentielle. Ce sont ces qualités qui permettront à l'IA de servir de concierge fidèle et fiable dans nos vies ».

Watson a ajouté que l'étude représentait un défi pour les futures interactions homme-machine et que nous deviendrons de plus en plus paranoïaques quant à la véritable nature des interactions, en particulier dans les domaines sensibles. Elle a ajouté que l'étude mettait en évidence l'évolution de l'IA au cours de l'ère des GPT.

« ELIZA était limité à des réponses toutes faites, ce qui limitait considérablement ses capacités. Il pouvait tromper quelqu'un pendant cinq minutes, mais ses limites devenaient rapidement évidentes », a-t-elle déclaré. « Les modèles de langages sont infiniment flexibles, capables de synthétiser des réponses à un large éventail de sujets, de s'exprimer dans des langues ou des sociolectes particuliers et de se présenter avec une personnalité et des valeurs axées sur le caractère. C'est un énorme pas en avant par rapport à quelque chose programmé à la main par un être humain, même si c'est avec beaucoup d'intelligence et de soin ».

Les défis de l’intelligence artificielle indiscernable

Bien que la réussite de GPT-4 au test de Turing soit une prouesse technique, elle n’est pas sans soulever des défis importants. Premièrement, l’indiscernabilité entre les interactions humaines et celles générées par l’IA peut conduire à des abus, tels que la désinformation ou l’usurpation d’identité.

De plus, il existe un risque que la dépendance croissante envers les IA dans les prises de décisions importantes puisse mener à une perte de compétences critiques chez les humains. La question de la responsabilité légale en cas d’erreurs commises par l’IA est également préoccupante.

En outre, l’intégration de GPT-4 dans des domaines sensibles comme la santé ou la justice nécessite une transparence et une réglementation accrues pour prévenir les biais et garantir l’équité.

Il est essentiel que la société engage un dialogue ouvert sur ces questions et travaille à établir des normes qui régissent l’utilisation des IA avancées comme GPT-4, afin d’en maximiser les bénéfices tout en minimisant les risques potentiels.

L'IA pourrait-elle être confrontée à un plafond de verre ? Les IA génératives pourraient manquer de données d'entraînement dès 2026

Les progrès récents dans le domaine de la modélisation de langage se sont fortement appuyés sur la formation non supervisée sur de grandes quantités de texte généré par l'homme, provenant principalement du web ou de corpus conservés. Les plus grands ensembles de données textuelles publiques générées par l'homme, tels que RefinedWeb, C4 et RedPajama, contiennent des milliers de milliards de mots collectés à partir de milliards de pages web.

La demande de données textuelles humaines publiques devrait continuer à augmenter. Afin de mettre à l'échelle la taille des modèles et des cycles de formation de manière efficace, les grands modèles de langage (LLM) sont généralement formés selon des lois de mise à l'échelle neuronale. Ces relations impliquent que l'augmentation de la taille des ensembles de données d'entraînement est cruciale pour améliorer efficacement les performances des LLM.

Des chercheurs étudient les contraintes potentielles sur la mise à l'échelle du LLM posées par la disponibilité de données textuelles publiques générées par l'homme. L'étude prévoit la demande croissante de données d'entraînement sur la base des tendances actuelles et estime le stock total de données textuelles humaines publiques.

Les résultats indiquent que si les tendances actuelles de développement du LLM se poursuivent, les modèles seront entraînés sur des ensembles de données d'une taille à peu près égale au stock disponible de données textuelles humaines publiques entre 2026 et 2032, ou légèrement plus tôt si les modèles sont surentraînés.

Nom : pro.png
Affichages : 28395
Taille : 133,3 Ko

Projections entre les données générés et les données utilisés

Les chercheurs étudient également comment les progrès en matière de modélisation de langage peuvent se poursuivre lorsque les ensembles de données textuelles générées par l'homme ne peuvent plus être mis à l'échelle. L'étude soutient que la génération de données synthétiques, l'apprentissage par transfert à partir de domaines riches en données et l'amélioration de l'efficacité des données pourraient permettre de réaliser de nouveaux progrès.

L'IA sera-t-elle à court de données ? L'étude explore les défis et les possibilités en matière de mise à l'échelle des systèmes d'apprentissage automatique, en particulier à la lumière de la nature limitée des données textuelles humaines publiques. L'analyse révèle l'approche d'un point critique d'ici la fin de la décennie, où la dépendance actuelle à l'égard des données textuelles humaines publiques pour l'entraînement des modèles d'apprentissage automatique pourrait devenir insoutenable.

Malgré ce goulot d'étranglement imminent, l'apprentissage par transfert et les données autogénérées sont identifiés comme des voies viables et prometteuses qui pourraient permettre la croissance et l'évolution continues des systèmes de ML au-delà des contraintes des données textuelles humaines publiques.

Toutefois, l'étude présente des limites : elle n'explore pas certaines considérations qui pourraient être pertinentes pour comprendre le rôle futur des données. Tout d'abord, le choix des données devrait dépendre des compétences ou des capacités souhaitées pour le modèle. L'identification des compétences économiquement ou scientifiquement utiles et des ensembles de données nécessaires pour les enseigner pourrait révéler des lacunes critiques en matière de données. Deuxièmement, les futures percées en ML, telles que les systèmes capables d'explorer et d'expérimenter le monde réel de manière autonome, pourraient modifier la source d'information dominante pour l'apprentissage.

Les conclusions de l'étude sont donc doubles. D'une part, le paradigme actuel basé sur les données textuelles humaines publiques ne pourra pas perdurer dans une décennie. D'autre part, il est probable que d'autres sources de données seront adoptées avant cette échéance, ce qui permettra aux systèmes de ML de continuer à se développer.

Conclusion

GPT-4 marque un tournant significatif car il semble avoir franchi le seuil du test de Turing. Les implications sont vastes et touchent divers domaines tels que le service clientèle, l’éducation et même la création littéraire. Cependant, cette prouesse soulève également des questions éthiques et des préoccupations concernant la sécurité et la vie privée. Les entreprises envisagent déjà d’intégrer GPT-4 dans leurs opérations pour améliorer l’efficacité et personnaliser les expériences utilisateur. Néanmoins, il est crucial de procéder avec prudence pour garantir que l’utilisation de cette technologie soit éthique et sécurisée.

Source : résultats de l'expérience

Et vous ?

Pensez-vous que la réussite du test de Turing par GPT-4 soit un indicateur fiable de l’intelligence artificielle ?

Quelles mesures devraient être prises pour assurer une utilisation éthique des IA comme GPT-4 dans la société ?

Comment la réussite de GPT-4 au test de Turing pourrait-elle transformer votre secteur d’activité ?

Quels sont les risques potentiels liés à l’indiscernabilité entre les interactions humaines et celles générées par l’IA ?

En quoi la réussite de GPT-4 au test de Turing influence-t-elle votre perception de la conscience et de l’intelligence ?

Le test de Turing serait dépassé et ne reflèterait pas la véritable intelligence des chatbots modernes

Discussions similaires

Partager

Partager