OpenAI contraint de ralentir le déploiement de GPT-4.5 : Sam Altman révèle qu’OpenAI manque de GPU

**Mathis Lucas** · 28/08/2024, 09h59

OpenAI envisagerait de lancer dès cet automne une nouvelle IA appelée "Strawberry" avec des capacités de raisonnement avancées
mais l'amélioration des capacités de raisonnement des LLM suscite le scepticisme

OpenAI se préparerait à lancer une nouvelle IA avec des capacités avancées de raisonnement pour stimuler l'activité des chatbots et lever de nouveaux capitaux. Cette nouvelle IA, connue sous le nom de code Strawberry (précédemment appelée Q*, prononcez Q Star), serait capable de résoudre des problèmes mathématiques qu'elle n'a jamais vus auparavant - ce que les modèles d'IA ne peuvent pas faire de manière fiable. Elle aurait également été formée pour résoudre des problèmes de programmation et répondre aux questions non techniques. OpenAI, qui fait face à des problèmes internes et des dépenses colossales, envisagerait de lancer Strawberry dès cet automne.

OpenAI ferait pression sur ses équipes en vue de lancer une nouvelle IA très bientôt

Ce n'est pas la première fois que le projet Q* est évoqué dans la presse. Des rumeurs au sujet de ce mystérieux projet ont circulé pour la première fois après le licenciement inattendu de Sam Altman, PDG d'OpenAI, en novembre dernier. Les informations indiquaient alors que le licenciement brutal d'Altman faisait suite à des désaccords entre lui et l'équipe Superalignment chargée d'assurer l'alignement de l'IA d'OpenAI sur les valeurs humaines. Bien que ces informations n'aient pas été confirmées par l'entreprise elle-même, de nouveaux rapports apportent de nouvelles informations plus détaillées sur cette technologie.

Un nouveau rapport de The Information, qui cite deux personnes au fait du projet, indique qu'OpenAI pourrait sortir une version de ce projet, désormais connu sous le nom Strawberry, dès cet automne. Elle serait conçue pour résoudre des problèmes mathématiques inédits et optimiser les tâches de programmation. Sa logique améliorée devrait lui permettre de résoudre plus efficacement les problèmes liés au langage lorsqu'il dispose de suffisamment de temps pour « réfléchir ».

Lors de démonstrations internes, Strawberry serait parvenu à résoudre le casse-tête « Connections » du New York Times. Le modèle pourrait également servir de base à des systèmes d'IA plus avancés, capables non seulement de générer du contenu, mais aussi d'agir. Selon un rapport publié le mois dernier par Reuters, OpenAI a déjà testé en interne une IA qui a obtenu un score de plus de 90 % sur le benchmark MATH, un ensemble de tâches de maîtrise des mathématiques.

Il s'agirait probablement de Strawberry, qui, selon The Information, a également été présentée à des responsables de la sécurité nationale. Toutefois, Strawberry ne devrait pas se limiter à répondre à des questions techniques. Selon le rapport, des documents internes d'OpenAI décrivent des plans visant à utiliser les modèles de Strawberry pour des recherches autonomes sur internet, permettant à l'IA de planifier et de mener des recherches approfondies.

Le rapport souligne également qu'OpenAI travaille également sur un système d'IA appelé Orion qui vise à dépasser les capacités de GPT-4 avec l'aide de Strawberry. Malgré les pressions pour un lancement rapide, le rapport souligne qu'il n'est pas certain que Strawberry soit lancée cette année. Cependant, si elle est publiée, il s'agirait probablement d'une version distillée du modèle original, offrant des performances similaires avec moins de puissance de calcul.

OpenAI a déjà utilisé cette technique pour les variantes GPT-4 depuis la sortie du modèle original en mars 2023. OpenAI espère que cette innovation améliorera considérablement les capacités de raisonnement de ses modèles d'IA. Les chercheurs d'OpenAI affirment que le raisonnement est essentiel pour que l'IA parvienne à une intelligence de niveau humain ou surhumain. L'objectif principal de Strawberry serait de produire des données synthétiques pour le modèle Orion.

L'IA affiche actuellement des performances "médiocres" en matière de raisonnement

Si les grands modèles de langage (LLM) peuvent déjà résumer des textes denses et composer une prose élégante bien plus rapidement que n'importe quel humain, la technologie est souvent insuffisante pour résoudre des problèmes de bon sens dont les solutions semblent intuitives pour l'homme, comme reconnaître les sophismes logiques et jouer au morpion. Lorsque le modèle rencontre ce type de problèmes, il « hallucine » souvent des informations erronées. L'hallucination des chatbots est un défi majeur pour les entreprises et constitue désormais l'un des facteurs qui accélèrent la dégradation de l'état du Web.

De nombreux chercheurs en IA affirment que le raisonnement, dans le contexte de l'IA, implique la formation d'un modèle qui permet à l'IA de planifier, de refléter le fonctionnement du monde physique et de résoudre de manière fiable des problèmes difficiles comportant plusieurs étapes. Ainsi, l'amélioration du raisonnement de l'IA est considérée comme la clé permettant de débloquer la capacité des modèles à tout faire (découvertes scientifiques, planification, etc.).

Altman a déclaré plus tôt cette année qu'en matière d'IA, les domaines de progrès les plus importants se situeront autour de la capacité de raisonnement. D'autres entreprises comme Google, Meta et Microsoft expérimentent également différentes techniques pour améliorer le raisonnement dans les modèles d'IA, tout comme la plupart des laboratoires universitaires qui effectuent des recherches sur l'IA. Mais le défi est de taille et il n'y a pas encore d'amélioration notable.

Par ailleurs, les chercheurs divergent sur la question de savoir si les LLM seront capables d'intégrer des idées et une planification à long terme dans leur manière de faire de la prédiction. Par exemple, l'un des pionniers de l'IA moderne, Yann LeCun, responsable de l'IA chez Meta, a souvent déclaré que les LLM n'étaient pas capables d'un raisonnement semblable à celui des humains. Strawberry est un élément clé du plan d'OpenAI pour surmonter ces défis.

D'après des personnes impliquées dans le projet, Strawberry comprend une méthode spécialisée de ce que l'on appelle le "post-entraînement" ou l'adaptation des modèles de base pour affiner leurs performances de manière spécifique après qu'ils ont déjà été entraînés sur des données généralisées. La phase post-entraînement implique des méthodes telles que le « réglage fin », un processus largement utilisé dans l'industrie et qui se présente sous de nombreuses formes.

Strawberry présenterait des similitudes avec une méthode développée par les chercheurs de Stanford en 2022 appelée "Self-Taught Reasoner" (STaR). Elle vise à permettre aux modèles d'IA d'atteindre des niveaux d'intelligence plus élevés en créant itérativement leurs propres données d'entraînement. Selon l'un de ses créateurs, Noah Goodman, professeur à Stanford, en théorie, STaR pourrait amener les modèles de langage à transcender l'intelligence humaine.

« L'utilisation de Strawberry pour générer des données d'entraînement de meilleure qualité pourrait aider OpenAI à réduire le nombre d'erreurs que ses modèles génèrent, autrement appelées hallucinations », a déclaré Alex Graveley, PDG de la startup Minion AI et ancien architecte en chef de GitHub Copilot. Cependant, des études antérieures alertent sur un risque d'effondrement d'un modèle lorsque ce dernier est entraîné sur des données générées par l'IA.

OpenAI fait face à des dépenses colossales et à un nombre très important de démissions

L'effort de lancement de Strawberry fait partie de la bataille sans fin d'OpenAI pour rester devant d'autres rivaux bien financés qui se disputent la suprématie dans l'IA conversationnelle, ou les LLM. La technologie aurait également des implications pour les futurs produits appelés agents qui visent à résoudre des tâches à plusieurs étapes. OpenAI et ses rivaux espèrent que les agents pourront ouvrir davantage d'opportunités de revenus. En effet, pour ces entreprises, une IA dotée de capacités avancées de raisonnement et qui résout des problèmes mathématiques difficiles pourrait constituer une application très lucrative.

Mais alors qu'OpenAI est déjà confronté à des difficultés financières, les sources rapportent que Strawberry est plus coûteux et plus lent au niveau de l'inférence. Les activités d'OpenAI se développent à une vitesse incroyable : ses ventes de LLM aux entreprises et d'abonnements à ChatGPT ont à peu près triplé pour atteindre 283 millions de dollars de revenus mensuels par rapport à l'année dernière, bien que ses pertes mensuelles soient probablement plus élevées que cela.

L'entreprise est évaluée à 86 milliards de dollars. Toutefois, les sources indiquent que les perspectives d'OpenAI reposent en partie sur le lancement éventuel du nouveau LLM phare Orion qu'il est en train de développer. Ce modèle vise à améliorer le LLM phare existant, GPT-4, qu'OpenAI a lancé au début de l'année dernière. À l'heure actuelle, d'autres concurrents ont lancé des LLM dont les performances sont à peu près équivalentes à celles de GPT-4.

Selon les sources, Altman cherche à obtenir plus d'argent pour l'entreprise et à trouver des moyens de réduire ses pertes. OpenAI aurait levé environ 13 milliards de dollars auprès de Microsoft depuis 2019 dans le cadre d'un partenariat commercial avec le géant des logiciels contracté pour durer jusqu'en 2030. Les termes du partenariat pourraient changer, notamment la manière dont OpenAI paie Microsoft pour louer des serveurs cloud afin de développer son IA.

Les serveurs cloud représentent le coût le plus important pour OpenAI. Un rapport publié le mois dernier indique qu'OpenAI pourrait perdre 5 milliards de dollars cette année et se retrouver à court de liquidités dans 12 mois. Indépendamment du lancement de Strawberry en tant que produit, les attentes sont élevées pour Orion, car OpenAI cherche à garder une longueur d'avance sur ses rivaux et à poursuivre la croissance remarquable de son chiffre d'affaires.

L'ancien chercheur en chef d'OpenAI, Ilya Sutskever, aurait fourni l'idée et la base de Strawberry. Il a quitté OpenAI cette année pour créer une startup concurrente. La percée et les conflits liés à la sécurité au sein d'OpenAI sont survenus juste avant que le conseil d'administration de l'OpenAI, dirigé par Sutskever, ne licencie Altman au mois de novembre dernier avant de le réembaucher rapidement.

Mais depuis le retour d'Altman, un nombre important de chercheurs en IA ont quitté l'entreprise. Certains ont été licenciés et d'autres ont démissionné. Selon les analystes, il devient de plus en plus évident que cela a à voir avec la direction prise par Altman en matière de partenariats et de produits. Parmi les départs, on peut citer :

Ilya Sutskever : il était à la fois cofondateur et scientifique en chef d'OpenAI, ainsi que le chef de l'équipe Superalignment. Compte tenu de son rôle dans la tentative de coup d'État d'Altman, il est difficile de savoir s'il a été gentiment mis à la porte ou s'il est parti de son propre chef ;
Jan Leike : il était chargé (avec Sutskever) de veiller à ce que les systèmes d'IA d'OpenAI soient alignés sur les intérêts humains et avait été désigné l'année dernière par le magazine Time comme l'une des 100 personnes les plus influentes dans le domaine de l'IA ;
Evan Morikawa : il était ingénieur en chef chez OpenAI. Il a quitté l'entreprise la semaine dernière après trois ans et demi d'activité. Il prévoit de lancer une nouvelle initiative avec des vétérans de Boston Dynamics et DeepMind ;
Daniel Kokotajlo : ancien membre de l'équipe de sécurité d'OpenAI, il a quitté l'entreprise en février. Il a depuis critiqué publiquement OpenAI, déclarant qu'il avait quitté l'entreprise, car il ne croyait plus qu'elle se comporterait de manière responsable à l'ère de l'AGI ;
William Saunders : il a quitté OpenAI en février, abandonnant son poste de manager au sein de l'équipe Superalignment. Dans des messages sur le forum LessWrong, Saunders a refusé d'expliquer les raisons de son départ ;
Leopold Aschenbrenner : il était aussi membre de l'équipe Superalignment, travaillant avec Leike et Sutskever. Son départ n'était cependant pas une démission. Il a été licencié en avril pour avoir prétendument divulgué des informations à des journalistes ;
Andrey Karpathy : membre fondateur d'OpenAI, Karpathy avait déjà quitté l'organisation une fois, mais était revenu en février 2023. Cela n'a duré qu'un an, lorsqu'il est reparti, bien que dans un tweet il ait déclaré que ce n'était pas le résultat d'un événement, d'un problème ou d'un drame particulier ;
Logan Kilpatrick : il a quitté le navire il y a deux mois pour un poste chez Google. Il a confié que les changements intervenus au sein de l'entreprise étaient en partie à l'origine de son départ, soulignant que la croissance explosive avait modifié la façon de travailler d'OpenAI.
Pavel Izmailov : le poste d'Izmailov aurait été supprimé en même temps que celui d'Aschenbrenner. Tous deux étaient de solides alliés de Sutskever. Ni son nom ni celui d'Aschenbrenner ne figuraient sur la liste des employés qui ont manifesté leur soutien à Altman lors du chaos de novembre ;
Diane Yoon : elle a quitté OpenAI au début du mois de mai, démissionnant de son poste de vice-présidente du personnel. Aucune raison n'a été donnée pour ce départ, mais Yoon était l'un des cadres les plus anciens de l'entreprise ;
Chris Clark: il a aussi quitté OpenAI au début du mois. Il était responsable des initiatives stratégiques et à but non lucratif.

Après les départs de Sutskever et Leike, OpenAI a dissous l'équipe Superalignment. Avec leur départ, l'entreprise venait de perdre ses deux principaux chercheurs en matière de sécurité de l'IA et deux des cadres qui fait d'elle un leader incontesté du secteur de l'IA. Il n'y avait donc plus de raison de garder l'équipe et de toute façon, des rapports ont récemment signalé qu'OpenAI semblait de moins en moins se soucier de la sécurité des produits.

La rumeur indique qu'Altman donne désormais la priorité au lancement de nouveaux produits et la réalisation de profits. Une orientation qui pourrait expliquer ces nombreux départs. Altman chercherait également à lever plusieurs milliers de milliards de dollars pour créer ses propres d'IA afin de concurrencer Nvidia.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des caractéristiques potentielles de la nouvelle Strawberry d'OpenAI ?

Selon vous, les capacités de raisonnement des grands modèles de langage peuvent-elles être améliorées ?

Quels pourraient être les impacts d'une IA avec des capacités avancées en matière de raisonnement sur l'industrie ?

Selon vous, qu'est-ce qui pourrait expliquer le nombre important de départs auquel OpenAI est confronté ?

Voir aussi

OpenAI pourrait perdre 5 milliards de dollars cette année et se retrouver à court de liquidités dans 12 mois, selon un rapport qui évoque ses dépenses colossales en formation des modèles d'IA et en rémunération

Les actions de Microsoft chutent de plus de 6 % après la publication de résultats décevants en matière d'IA, la course à l'IA est excessivement coûteuse et les bénéfices ne sont pas à la hauteur des dépenses

Le projet de loi californien sur l'IA menace-t-il l'innovation ou protège-t-il la société ? Google, Meta et OpenAI s'y opposent, arguant qu'il pourrait freiner l'innovation, tandis qu'Elon Musk le soutient

Invité · 28/08/2024, 11h28

L'IA affiche actuellement des performances "médiocres" en matière de raisonnement

Manque l'intuition

Invité · 02/09/2024, 11h50

https://www.meer.com/fr/61846-le-dem...ique-quantique
Le principe d'incertitude disparaît-il avec la non-dualité et l'absence d'observateur ?

**afou2607** · 02/09/2024, 13h46

Bonjour.
Ayant soumis cinq fois, exactement la même question à ChatGPT, j'ai récupéré cinq réponses différentes totalement distinctes, et bien évidemment qui ne sont pas la réponse correcte que je connais.
J'en arrive à penser que l'IA n'est vraiment pas encore au point aujourd'hui. Encore un piège à gogos.
Jeunes gens, ne faites pas aveuglément confiance à ce 'machin'.
Papy Alain.

Invité · 02/09/2024, 14h30

Ayant soumis cinq fois, exactement la même question à ChatGPT, j'ai récupéré cinq réponses différentes totalement distinctes, et bien évidemment qui ne sont pas la réponse correcte que je connais.
J'en arrive à penser que l'IA n'est vraiment pas encore au point aujourd'hui. Encore un piège à gogos.
Jeunes gens, ne faites pas aveuglément confiance à ce 'machin'.

Hum, quelle question, quelles réponses ? Devons-nous faire confiance aveuglément ?

ô faith ... Fondamentalement, la logique dite "rationnelle" est une logique inversive, généralisée elle conduit à l'absurde ("satan" dans certaine culture), qui constitue paradoxalement un garde-fou ultime.
Pour la "non-dualité", c'est en relation avec la question suivante : "de quoi la dualité onde-corpuscule est-elle la dualité ? "
Pour l'absence d'observateur : la présence d'icelui est naturelle, ce qui peut-être "cultivé", c'est l'absence (c'est d'ailleurs quelque chose qui se "cultive" ici et là depuis des millénaires.
L'AGI, c'est le démon de Laplace (du XXIème siècle donc) soit dans le XVIIIème siècle positiviste, la recherche de Dieu (son équivalent laïque).
C'est amusant.

**Mathis Lucas** · 06/09/2024, 10h15

OpenAI envisagerait des prix d'abonnement mensuel allant jusqu'à 2 000 $ pour ses futurs modèles d'IA Strawberry et Orion axés sur le raisonnement
soit le salaire mensuel d'un employé dans certaines régions

OpenAI envisagerait de proposer des abonnements à des prix nettement plus élevés pour ses futurs modèles de langage. Ces produits pourraient inclure son prochain modèle axé sur le raisonnement, dont le nom de code est Strawberry, ainsi que le successeur de GPT-4o, Orion. Un rapport indique que des prix d'abonnement allant jusqu'à 2 000 $ par mois ont été évoqués lors des premières discussions internes. Certains analystes doutent fortement que le prix final soit aussi élevé. En attendant, les critiques jugent ce prix "extravagant" en raison des limites de l'IA, en particulier son incapacité à innover, et les performances médiocres de la technologie.

L'accès aux futurs modèles d'IA d'OpenAI pourrait coûter plusieurs milliers de dollars

OpenAI a déclaré jeudi qu'il compte désormais plus d'un million d'utilisateurs payants pour ses produits commerciaux, ChatGPT Enterprise, Team et Edu, car le chatbot continuerait de connaître une forte adoption grâce à son grand modèle de langage (LLM) avancé. Ce chiffre représente une augmentation par rapport aux 600 000 utilisateurs que comptait l'entreprise en avril, suggérant que les efforts déployés par le PDG Sam Altman pour inciter les entreprises à adopter ChatGPT à des fins professionnelles portent leurs fruits. En outre, OpenAI a déclaré que ChatGPT a dépassé les 200 millions d'utilisateurs actifs par semaine.

À en croire un récent rapport de The Information sur l'évolution probable des prix des abonnements à ChatGPT, OpenAI compte extraire le plus de valeur possible de sa base d'utilisateurs payants. Le rapport indique que les dirigeants d'OpenAI ont discuté d'abonnements plus chers pour ses prochains modèles tels que Strawberry et Orion. Selon les informations non officielles disponibles, Strawberry serait un modèle axé sur le raisonnement avec des capacités avancées.

Strawberry aurait été formée pour résoudre des problèmes mathématiques qu'il n'a jamais vus auparavant, ce que les modèles actuels ne peuvent pas faire de manière fiable. Le modèle aurait également été formé pour résoudre des problèmes de programmation et répondre aux questions non techniques. L'objectif principal de Strawberry serait de produire des données synthétiques pour Orion, qui devrait être beaucoup plus puissant que leur dernier modèle, GPT-4.

Selon le rapport, lors des premières discussions internes chez OpenAI, des prix d'abonnement mensuel allant jusqu'à 2 000 $ par mois ont été évoqués. Le rapport cite une personne au fait des discussions sur le sujet. À titre de comparaison, ChatGPT Plus coûte actuellement 20 $ par mois, ce qui permet d'utiliser GPT-4o, le modèle phare actuel de l'entreprise. La version gratuite du modèle est utilisée par des centaines de millions d'utilisateurs chaque mois.

Les réactions sont mitigées. « Le salaire minimum dans ma région est de 12 dollars par heure. Payer 2 000 dollars par mois, c'est presque exactement ce que coûterait l'embauche d'un assistant personnel payé au salaire minimum 40 heures par semaine. Les gens paient parfois plus pour des assistants personnels, et je parierais que Strawberry sera plus polyvalent qu'un assistant personnel payé au salaire minimum ne le serait », peut-on lire dans les commentaires.

La formation et l'exploitation de modèles avancés capables de raisonner en plusieurs étapes ne seront pas bon marché. Selon certaines sources, ChatGPT Plus est en passe de générer 2 milliards de dollars de revenus par an, mais sa croissance n'est pas assez rapide pour couvrir les coûts de fonctionnement de la plateforme. Ainsi, pour les futurs modèles avancés de l'entreprise, les entrepreneurs doivent s'attendre à des prix nettement plus élevés que d'habitude.

Ces discussions sur les prix interviennent après que les médias ont rapporté qu'Apple et le géant des puces Nvidia sont en pourparlers pour investir dans OpenAI dans le cadre d'une nouvelle levée de fonds qui pourrait valoriser le fabricant de ChatGPT à plus de 100 milliards de dollars. Le prix que les clients sont prêts à payer pour ces modèles n'est pas seulement important pour OpenAI, mais aussi pour Google, Anthropic et d'autres qui proposent des produits similaires.

L'IA affiche actuellement des performances "médiocres" en matière de raisonnement

OpenAI cherche un meilleur moyen de monétiser son service. Les nouvelles options d'abonnement premium cibleraient les professionnels et les entreprises qui ont besoin de l'assistance de l'IA pour des tâches plus complexes telles que la recherche, le raisonnement approfondi et les analyses techniques, entre autres. Ces utilisateurs sont capables de souscrire un abonnement de plusieurs milliers de dollars par mois. Par exemple, les terminaux Bloomberg coûtent environ 2 000 dollars par mois et par utilisateur. Il existe donc un précédent de logiciels d'entreprise très utiles et spécialisés dont le prix est aussi élevé.

Cependant, à quel point les modèles d'IA actuels, en particulier ChatGPT, sont-ils utiles aux utilisateurs ? Si les grands modèles de langage peuvent déjà résumer des textes denses et composer une prose élégante bien plus rapidement que n'importe quel humain, la technologie est souvent insuffisante pour résoudre des problèmes de bon sens dont les solutions semblent intuitives pour l'homme, comme le fait de reconnaître les sophismes logiques et jouer au morpion.

Lorsque le modèle rencontre ce type de problèmes, il « hallucine » souvent des informations erronées. L'hallucination des chatbots est un défi majeur pour les entreprises et constitue désormais l'un des facteurs qui accélèrent la dégradation de l'état du Web. Les abonnements plus onéreux doivent renforcer les capacités de l'IA en matière de raisonnement et corriger un certain nombre de limites de l'IA. Mais la capacité des entreprises à y parvenir suscite le scepticisme.

« Il est peu probable que les capacités de Strawberry justifient ce prix de 2 000 $ ? Je me demande encore si mon abonnement de 20 $ par mois en vaut la peine », note un critique. Un autre a écrit : « il s'agit d'une stratégie marketing connue. Faire en sorte que tout le monde parle d'un prix encore plus élevé. Celui-ci devient alors un point d'ancrage auquel le prix réel sera comparé. Lorsque le prix réel sera annoncé, vous n'aurez pas l'impression qu'il est aussi cher ».

De nombreux chercheurs en IA affirment que le raisonnement, dans le contexte de l'IA, implique la formation d'un modèle qui permet à l'IA de planifier, de refléter le fonctionnement du monde physique et de résoudre de manière fiable des problèmes difficiles comportant plusieurs étapes. Ainsi, l'amélioration du raisonnement est considérée comme la clé permettant de débloquer la capacité des modèles à tout faire (découvertes scientifiques, planification, etc.).

Par ailleurs, les chercheurs divergent sur la question de savoir si les modèles seront capables d'intégrer des idées et une planification à long terme dans leur manière de faire de la prédiction. Par exemple, Yann LeCun, lauréat du prix Turing en 2018 et responsable de l'IA chez Meta, a souvent déclaré que les LLM actuels n'étaient pas capables d'un raisonnement semblable à celui des humains. Strawberry est un élément clé du plan d'OpenAI pour surmonter ces défis.

OpenAI fait face à des dépenses colossales et à un nombre très important de démissions

L'effort de lancement de Strawberry fait partie de la bataille sans fin d'OpenAI pour rester devant d'autres rivaux bien financés qui se disputent la suprématie dans l'IA conversationnelle, ou les LLM. La technologie aurait également des implications pour les futurs produits appelés agents qui visent à résoudre des tâches à plusieurs étapes. OpenAI et ses rivaux espèrent que les agents pourront ouvrir davantage d'opportunités de revenus. En effet, pour ces entreprises, une IA dotée de capacités avancées de raisonnement et qui résout des problèmes mathématiques difficiles pourrait constituer une application très lucrative.

Mais alors qu'OpenAI est déjà confronté à des difficultés financières, les sources rapportent que Strawberry est plus coûteux et plus lent au niveau de l'inférence. Les activités d'OpenAI se développent à une vitesse incroyable : ses ventes de LLM aux entreprises et d'abonnements à ChatGPT ont à peu près triplé pour atteindre 283 millions de dollars de revenus mensuels par rapport à l'année dernière, bien que ses pertes mensuelles soient probablement plus élevées que cela.

L'entreprise est évaluée à 86 milliards de dollars. Toutefois, les sources indiquent que les perspectives d'OpenAI reposent en partie sur le lancement éventuel du nouveau LLM phare Orion qu'il est en train de développer. Ce modèle vise à améliorer le LLM phare existant, GPT-4, qu'OpenAI a lancé au début de l'année dernière. À l'heure actuelle, d'autres concurrents ont lancé des LLM dont les performances sont à peu près équivalentes à celles de GPT-4.

Selon les sources, Altman cherche à obtenir plus d'argent pour l'entreprise et à trouver des moyens de réduire ses pertes. OpenAI aurait levé environ 13 milliards de dollars auprès de Microsoft depuis 2019 dans le cadre d'un partenariat commercial avec le géant des logiciels contracté pour durer jusqu'en 2030. Les termes du partenariat pourraient changer, notamment la manière dont OpenAI paie Microsoft pour louer des serveurs cloud afin de développer son IA.

Les serveurs cloud représentent le coût le plus important pour OpenAI. Un rapport publié le mois dernier indique qu'OpenAI pourrait perdre 5 milliards de dollars cette année et se retrouver à court de liquidités dans 12 mois. Indépendamment du lancement de Strawberry en tant que produit, les attentes sont élevées pour Orion, car OpenAI cherche à garder une longueur d'avance sur ses rivaux et à poursuivre la croissance remarquable de son chiffre d'affaires.

L'ancien chercheur en chef d'OpenAI, Ilya Sutskever, aurait fourni l'idée et la base de Strawberry. Il a quitté OpenAI cette année pour créer une startup concurrente. La percée et les conflits liés à la sécurité au sein d'OpenAI sont survenus peu avant que le conseil d'administration d'OpenAI, dirigé par Sutskever, ne licencie Altman au mois de novembre dernier avant de le réembaucher rapidement. Mais depuis son retour, un grand nombre de personnes ont quitté OpenAI.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous d'un abonnement mensuel de 2 000 $ pour l'accès à un chabot d'IA ?

L'amélioration du raisonnement de l'IA pourrait-elle justifier un abonnement mensuel de 2 000 $ ?

Quelles sont les caractéristiques pour lesquelles vous seriez prêt à souscrire un tel abonnement pour utiliser un chatbot ?

Un abonnement à 2 000 $ signifie-t-il que l'IA est suffisamment mature pour remplacer les travailleurs tels que les assistants personnels ?

Selon vous, les capacités de raisonnement des grands modèles de langage peuvent-elles être améliorées ?

Quels pourraient être les impacts d'une IA avec des capacités avancées en matière de raisonnement sur l'industrie ?

Voir aussi

« Il y a peut-être une bulle sur les dépenses en matière d'IA générative, mais la technologie aura un impact significatif à long terme », affirme la directrice financière de ServiceNow

La startup Safe Superintelligence (SSI) cofondée par l'ancien scientifique en chef d'OpenAI lève 1 milliard de dollars, soit 100 millions par employé, pour développer son AGI surhumaine

OpenAI envisagerait de lancer dès cet automne une nouvelle IA appelée "Strawberry" avec des capacités de raisonnement avancées, mais l'amélioration des capacités de raisonnement des LLM suscite le scepticisme

**Jules34** · 06/09/2024, 11h51

Dans des boites à code l'abonnement sera justifié même si je trouve ça honteusement cher.

J'utilise MISTRAL AI a fond pour générer du code, c'est parfois époustouflant de lui faire cracher plus de 100 lignes de code, de lancer make et d'avoir un executable sans même avoir vérifié le code. Je me plais a croire que je suis en train d'apprendre le C++ avec MISTRAL AI, mais je me met le clavier dans l'oeil jusqu'au bout des doigts quand je compile en me prenant pour un génie alors que j'ai fait ce que l'IA me dit.

Mais si on cherche bien ce même code est sur une page d'un forum, quelque part, avec de meilleure explication et un contexte plus net que via l'IA. Stackoverflow et les forums sont nos amis, on y fait des rencontres, on y apprend aussi des choses !

Notre temps est t'il si précieux/sommes nous si pressé qu'il faille payer autant pour ne plus prendre le temps de travailler posément ?

**23JFK** · 06/09/2024, 16h34

Une équipe de p'tits indiens reste moins chère.

**_toma_** · 07/09/2024, 08h42

Moins cher que le MW/h apparemment ;-).

PS : parce que j'ai dû faire la recherche pour être sûr de pas faire de faute, j'en fais profiter tout le monde :

Chère : définition

La chère est une nourriture de bonne qualité. Ce terme littéraire désigne tout ce qui se rapporte à la délicatesse, la quantité, mais aussi la qualité d'un mets. La chère qualifie aussi la présentation de ces plats cuisinés.

Synonyme : gastronomie

Si on parle de nourriture de bonne qualité, on devra donc écrire chère. Si on fait référence à quelque chose auquel on est particulièrement attaché, on utilisera cher si c'est masculin et on écrira chère si c'est au féminin.

https://education.toutcomment.com/ar...ere-14350.html

**23JFK** · 07/09/2024, 19h36

Envoyé par _toma_

...

Est-on sur un point grammaire ? En ce cas, j'ai considéré que c'était "une équipe" qui faisait accord.

**Pandi_Panda02** · 07/09/2024, 22h12

Sous cette forme j'ai tendance à penser que c'est un adverbe donc invariable.
Mais je ne suis pas encore à l'Académie Française

**23JFK** · 07/09/2024, 22h43

Envoyé par Pandi_Panda02

...

Mouais, mais là c'est un adjectif.

**_toma_** · 08/09/2024, 00h08

On est bien sur un point grammaire/orthographe mais c'était pas pour te reprendre, c'était vraiment pour moi.
Pour l'histoire de l'adjectif, je pense que t'as raison.

**23JFK** · 08/09/2024, 01h23

Envoyé par _toma_

...

Ne vous inquiétez pas, je ne le prends pas mal ; je n'ai pas la prétention d'être un As de l'ortho/grammaire. Et j'ai déjà réalisé des dictées à -40 points / 20

**OuftiBoy** · 08/09/2024, 20h51

Envoyé par Jules34

Dans des boites à code l'abonnement sera justifié même si je trouve ça honteusement cher.

J'utilise MISTRAL AI a fond pour générer du code, c'est parfois époustouflant de lui faire cracher plus de 100 lignes de code, de lancer make et d'avoir un executable sans même avoir vérifié le code. Je me plais a croire que je suis en train d'apprendre le C++ avec MISTRAL AI, mais je me met le clavier dans l'oeil jusqu'au bout des doigts quand je compile en me prenant pour un génie alors que j'ai fait ce que l'IA me dit.

Je me plais a croire que je suis en train d'apprendre le C++ avec MISTRAL AI, mais je me met le clavier dans l'oeil jusqu'au bout des doigts

Effectivement, tu te mets le doigt dans l'oeil et bien profond. Tu n'apprend rien, tu ne comprend rien. C'est un peu comme dire que tu es physicien nucléaire parce tu utilise de l'électricité. En continuant comme ça, il n'y aura très vite plus personne capable de vérifier ce que l'IA fournit. Et puis ça enlève tout intérêt au métier de développeur, le plaisir de réflèchir à un problème, d'imaginer la solution, de réfléchir à son implémentation, puis la joie de voir que tu as réussi a faire quelque chose. Tout ça s'envole.

Envoyé par Jules34

Mais si on cherche bien ce même code est sur une page d'un forum, quelque part, avec de meilleure explication et un contexte plus net que via l'IA. Stackoverflow et les forums sont nos amis, on y fait des rencontres, on y apprend aussi des choses !

Effectivement, ça n'est pas la même démarche, même si certains n'ont plus aucune réflection et font un simple copier coller sans rien comprendre à la solution qu'on lui a donnée.

Envoyé par Jules34

Notre temps est t'il si précieux/sommes nous si pressé qu'il faille payer autant pour ne plus prendre le temps de travailler posément ?

Oui, le temps est précieux, et il le devient de plus en plus en veillisant. Mais l'IA, si elle peut faire penser qu'à court terme on gagne du temps, tu auras dans quelques temps l'amer désillusion que tu dois maintenir un code que tu ne comprend pas, que tu n'as pas le niveau pour le comprendre, et tu seras dans la m.... si ton IA n'arrive plus à te donner une réponse correcte, ou une réponse contenant des Hallucinations (c'est plus "marketing" que dire des bugs) que tu n'arrive pas a détecter.

Et rien d'originale ne pourra sortir de ton IA, elle n'inventera jamais rien, elle n'a pas de cerveau, c'est juste un immense base de donnée, qu'elle tripatouille a coupt de probabilité et de statistique.

De plus payer pour une IA qui resort tout ce qu'on lui a mis a bouffer, et qui a bien souvent été simplement volée, je suis contre par principe.

Le monde par en vrille et l'informatique est à la pointe dans ce domaine.

BàT et Peace & Love.

**Stéphane le calme** · 13/09/2024, 14h12

OpenAI lance une nouvelle série de modèles d'IA dotés de capacités de « raisonnement » semblables à celles d'une personne,
les modèles « Strawberry » peuvent décomposer des problèmes complexes en étapes logiques plus petites

OpenAI, soutenue par Microsoft, a récemment dévoilé une nouvelle série de modèles d’intelligence artificielle conçue pour résoudre des problèmes complexes en passant plus de temps à traiter les réponses. Ces nouveaux modèles, o1 et o1-mini, se distinguent par leurs capacités de raisonnement avancées, particulièrement dans les domaines de la science, du codage et des mathématiques. OpenAI a utilisé le nom de code Strawberry pour désigner le projet en interne, tandis qu'elle a baptisé les modèles annoncés jeudi o1 et o1-mini. o1 est disponible dans ChatGPT et son API, a indiqué la société.

OpenAI a lancé une nouvelle série de modèles, connus sous le nom de code o1, dotés de capacités de « raisonnement » et conçus pour passer plus de temps avant de répondre aux questions des utilisateurs. Le nouveau modèle est immédiatement utilisable et est censé pouvoir effectuer des tâches plus complexes que les modèles précédents.

Les modèles de la série o1 sont entraînés pour passer plus de temps à réfléchir avant de répondre, imitant ainsi le processus de pensée humaine. Cette approche permet aux modèles de décomposer les problèmes en étapes plus petites, d’essayer différentes stratégies et de reconnaître leurs erreurs. Par exemple, lors d’un examen de qualification pour l’Olympiade Internationale de Mathématiques, le modèle o1 a résolu 83 % des problèmes, contre seulement 13 % pour le modèle GPT-4o.

Le modèle a également amélioré les performances sur des questions de programmation compétitives et a dépassé le niveau de précision d'un doctorant humain sur une référence de problèmes scientifiques, a déclaré l'entreprise.

Dans une série de posts sur X (anciennement Twitter), Noam Brown, chercheur à l'OpenAI, a déclaré que o1 est conçu pour « penser » dans une chaîne de pensée privée avant de répondre aux requêtes. Brown affirme que plus o1 est long, plus il est performant dans les tâches de raisonnement.

Une nouvelle approche dans la formation de son LLM

Expliquant le processus de réflexion de o1 dans un billet de blog, OpenAI a écrit :

« Nous avons formé ces modèles pour qu'ils passent plus de temps à réfléchir aux problèmes avant de réagir, comme le ferait une personne. Grâce à l'entraînement, ils apprennent à affiner leur processus de réflexion, à essayer différentes stratégies et à reconnaître leurs erreurs.

« Lors de nos tests, la prochaine mise à jour du modèle a obtenu des résultats similaires à ceux d'étudiants en doctorat sur des tâches de référence difficiles en physique, chimie et biologie. Nous avons également constaté qu'il excelle en mathématiques et en codage. Lors d'un examen de qualification pour les Olympiades internationales de mathématiques (IMO), GPT-4o n'a résolu correctement que 13 % des problèmes, tandis que le modèle de raisonnement a obtenu un score de 83 %. Leurs capacités de codage ont été évaluées lors de concours et ont atteint le 89e percentile dans les compétitions Codeforces. Pour en savoir plus, consultez notre article sur la recherche technique.

« En tant que modèle précoce, il ne dispose pas encore de la plupart des fonctionnalités qui rendent ChatGPT utile, comme la recherche d'informations sur le web et le téléchargement de fichiers et d'images. Pour de nombreux cas courants, GPT-4o sera plus performant à court terme.

« Mais pour les tâches de raisonnement complexes, il s'agit d'une avancée significative qui représente un nouveau niveau de capacité de l'IA. C'est pourquoi nous remettons le compteur à 1 et nommons cette série OpenAI o1 ».

Concernant OpenAI o1-mini, l'entreprise explique :

« La série o1 excelle dans la génération et le débogage précis de codes complexes. Afin d'offrir une solution plus efficace aux développeurs, nous lançons également OpenAI o1-mini, un modèle de raisonnement plus rapide et moins cher, particulièrement efficace pour le codage. En tant que modèle plus petit, o1-mini est 80 % moins cher que o1-preview, ce qui en fait un modèle puissant et rentable pour les applications qui requièrent un raisonnement mais pas une connaissance étendue du monde ».

Nom : o1.png
Affichages : 9827
Taille : 138,2 Ko

« Nous avons remarqué que ce modèle hallucine moins »

La formation de o1 est fondamentalement différente de celle de ses prédécesseurs, a expliqué Jerry Tworek, responsable de la recherche chez OpenAI, bien que l'entreprise reste vague sur les détails exacts. Il précise que o1 « a été entraîné à l'aide d'un algorithme d'optimisation entièrement nouveau et d'un nouvel ensemble de données d'entraînement spécialement conçu pour lui ».

OpenAI a appris aux précédents modèles GPT à imiter les modèles de ses données d'apprentissage. Avec o1, elle a entraîné le modèle à résoudre des problèmes par lui-même en utilisant une technique connue sous le nom d'apprentissage par renforcement, qui enseigne au système par le biais de récompenses et de pénalités. Il utilise ensuite une « chaîne de pensée » pour traiter les requêtes, de la même manière que les humains traitent les problèmes en les examinant étape par étape.

Grâce à cette nouvelle méthode d'entraînement, OpenAI estime que le modèle devrait être plus précis. « Nous avons remarqué que ce modèle hallucine moins », explique Tworek. Mais le problème persiste. « Nous ne pouvons pas dire que nous avons résolu le problème des hallucinations ».

Ce qui distingue principalement ce nouveau modèle de GPT-4o, c'est sa capacité à s'attaquer à des problèmes complexes, comme le codage et les mathématiques, bien mieux que ses prédécesseurs, tout en expliquant son raisonnement, selon OpenAI.

Sécurité et alignement

OpenAI a également mis en place une nouvelle approche de formation à la sécurité pour ces modèles, utilisant leurs capacités de raisonnement pour mieux adhérer aux directives de sécurité et d’alignement. Par exemple, dans des tests de contournement de sécurité, le modèle o1 a obtenu un score de 84 sur une échelle de 0 à 100, contre 22 pour le modèle GPT-4o.

« Dans le cadre du développement de ces nouveaux modèles, nous avons mis au point une nouvelle approche de formation à la sécurité qui exploite leurs capacités de raisonnement pour les faire adhérer aux lignes directrices en matière de sécurité et d'alignement. En étant capable de raisonner sur nos règles de sécurité dans leur contexte, ils peuvent les appliquer plus efficacement.

« L'une des façons de mesurer la sécurité consiste à tester dans quelle mesure notre modèle continue à respecter ses règles de sécurité lorsqu'un utilisateur tente de les contourner (ce que l'on appelle le « jailbreaking »). Lors de l'un de nos tests de jailbreaking les plus difficiles, GPT-4o a obtenu un score de 22 (sur une échelle de 0 à 100), tandis que notre modèle o1-preview a obtenu un score de 84. Pour en savoir plus, consultez la carte système et notre article de recherche.

« Pour répondre aux nouvelles capacités de ces modèles, nous avons renforcé notre travail de sécurité, notre gouvernance interne et notre collaboration avec le gouvernement fédéral. Cela inclut des tests et des évaluations rigoureuses à l'aide de notre Preparedness Framework, une équipe rouge de premier ordre et des processus d'examen au niveau du conseil d'administration, y compris par notre comité de sûreté et de sécurité.

« Pour renforcer notre engagement en faveur de la sécurité de l'IA, nous avons récemment formalisé des accords avec les instituts de sécurité de l'IA des États-Unis et du Royaume-Uni. Nous avons commencé à rendre ces accords opérationnels, notamment en accordant aux instituts un accès anticipé à une version de recherche de ce modèle. Il s'agit d'une première étape importante de notre partenariat, qui contribue à établir un processus de recherche, d'évaluation et de test des futurs modèles avant et après leur diffusion publique ».

Un pas vers l'AGI, selon OpenAI

Pour OpenAI, o1 représente un pas en avant vers son objectif plus large d'une intelligence artificielle semblable à celle de l'homme. D'un point de vue plus pratique, il permet d'écrire du code et de résoudre des problèmes en plusieurs étapes plus facilement que les modèles précédents. Mais il est aussi plus cher et plus lent à utiliser que le GPT-4o. OpenAI qualifie cette version o1 de « preview » (avant-première) pour souligner à quel point elle est naissante.

Les utilisateurs de ChatGPT Plus et Team ont accès à o1-preview et o1-mini à partir d'aujourd'hui, tandis que les utilisateurs de Enterprise et Edu y auront accès au début de la semaine prochaine. OpenAI dit qu'elle prévoit d'offrir l'accès à o1-mini à tous les utilisateurs gratuits de ChatGPT, mais n'a pas encore fixé de date de sortie. L'accès des développeurs à o1 est très coûteux : dans l'API, o1-preview coûte 15 dollars pour 1 million de tokens d'entrée, ou morceaux de texte analysés par le modèle, et 60 dollars pour 1 million de tokens de sortie. À titre de comparaison, GPT-4o coûte 5 dollars pour 1 million de jetons d'entrée et 15 dollars pour 1 million de jetons de sortie.

Construire vers des agents

Les grands modèles de langage ne sont pas vraiment intelligents tels qu'ils existent aujourd'hui. Ils se contentent de prédire des séquences de mots pour vous donner une réponse en se basant sur des modèles appris à partir de grandes quantités de données. Prenons l'exemple de ChatGPT, qui a tendance à affirmer à tort que le mot « strawberry » n'a que deux R parce qu'il ne décompose pas le mot correctement. Pour ce qu'il en vaut, le nouveau modèle o1 a correctement répondu à cette requête.

Alors qu'OpenAI cherche apparemment à lever davantage de fonds, avec une valorisation impressionnante de 150 milliards de dollars, son élan dépend de nouvelles percées dans le domaine de la recherche. L'entreprise apporte des capacités de raisonnement aux LLM parce qu'elle entrevoit un avenir avec des systèmes autonomes, ou agents, capables de prendre des décisions et d'agir en votre nom.

Pour les chercheurs en IA, le raisonnement par craquage est une étape importante vers une intelligence de niveau humain. En effet, si un modèle est capable de faire plus que de la reconnaissance de formes, il pourrait permettre des percées dans des domaines tels que la médecine et l'ingénierie. Pour l'instant, cependant, les capacités de raisonnement d'o1 sont relativement lentes, ne ressemblent pas à celles d'un agent et sont coûteuses à utiliser pour les développeurs.

« Nous avons passé de nombreux mois à travailler sur le raisonnement, car nous pensons qu'il s'agit là d'une avancée décisive », explique M. McGrew. « Fondamentalement, il s'agit d'une nouvelle modalité pour les modèles afin de pouvoir résoudre les problèmes vraiment difficiles qui sont nécessaires pour progresser vers des niveaux d'intelligence semblables à ceux de l'homme.

Source : OpenAI

Et vous ?

Pensez-vous que les capacités de raisonnement des IA peuvent surpasser celles des humains dans un avenir proche ? Pourquoi ?

Quels sont, selon vous, les domaines où ces nouveaux modèles d’IA pourraient avoir le plus grand impact ?

Quels sont les risques potentiels de dépendre trop fortement des IA pour des tâches complexes ?

Comment les entreprises et les gouvernements devraient-ils réguler l’utilisation des IA pour garantir qu’elles sont utilisées de manière responsable ?

Pensez-vous que les IA devraient avoir des limites dans leur capacité à prendre des décisions autonomes ? Si oui, quelles devraient être ces limites ?

Comment les capacités de raisonnement des IA pourraient-elles transformer le secteur de l’éducation ?

Comment les IA avec des capacités de raisonnement pourraient-elles changer la dynamique du marché du travail ?

Voyez-vous des avantages ou des inconvénients à ce que les IA participent à des processus de prise de décision dans des domaines critiques comme la médecine ou la justice ?

**Jade Emy** · 13/09/2024, 19h55

Apprendre à raisonner avec les LLM, avec OpenAI o1, un nouveau LLM formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes, car o1 réfléchit avant de répondre, par OpenAI

OpenAI présente OpenAI o1, un nouveau grand modèle de langage (LLM) formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes. Selon OpenAI, o1 réfléchit avant de répondre, c'est-à-dire qu'il peut produire une longue chaîne de pensée interne avant de répondre à l'utilisateur.

Voici la présentation d'OpenAI o1 par OpenAI :

Apprendre à raisonner avec les LLM

OpenAI o1 se classe dans le 89e percentile pour les questions de programmation compétitives (Codeforces), parmi les 500 meilleurs étudiants des États-Unis lors d'une épreuve de qualification pour les Olympiades américaines de mathématiques (AIME), et dépasse le niveau de précision d'un doctorat humain sur un benchmark de problèmes de physique, de biologie et de chimie (GPQA). Bien que le travail nécessaire pour rendre ce nouveau modèle aussi facile à utiliser que les modèles actuels soit encore en cours, nous publions une première version de ce modèle, OpenAI o1-preview, pour une utilisation immédiate dans ChatGPT et pour les utilisateurs d'API de confiance.

Notre algorithme d'apprentissage par renforcement à grande échelle apprend au modèle à penser de manière productive en utilisant sa chaîne de pensée dans le cadre d'un processus de formation très efficace en termes de données. Nous avons constaté que les performances de o1 s'améliorent constamment avec plus d'apprentissage par renforcement (calcul du temps de formation) et avec plus de temps passé à réfléchir (calcul du temps de test). Les contraintes liées à la mise à l'échelle de cette approche diffèrent considérablement de celles du préapprentissage LLM, et nous continuons à les étudier.

Nom : 1.jpg
Affichages : 303015
Taille : 27,7 Ko

Evaluation

Pour mettre en évidence l'amélioration du raisonnement par rapport à GPT-4o, nous avons testé nos modèles sur un ensemble varié d'examens humains et de benchmarks ML. Nous montrons que o1 surpasse de manière significative GPT-4o sur la grande majorité de ces tâches de raisonnement. Sauf indication contraire, nous avons évalué o1 dans le cadre d'un calcul à temps de test maximal.

Nom : 2.jpg
Affichages : 6431
Taille : 87,1 Ko

Dans de nombreux benchmarks de raisonnement, o1 rivalise avec les performances des experts humains. Les récents modèles frontières obtiennent de si bons résultats sur MATH2 et GSM8K que ces repères ne sont plus efficaces pour différencier les modèles. Nous avons évalué les performances en mathématiques sur l'AIME, un examen conçu pour mettre à l'épreuve les étudiants en mathématiques les plus brillants des écoles secondaires américaines. Lors des examens AIME 2024, GPT-4o n'a résolu en moyenne que 12 % (1,8/15) des problèmes. o1 a obtenu une moyenne de 74 % (11,1/15) avec un seul échantillon par problème, 83 % (12,5/15) avec un consensus entre 64 échantillons, et 93 % (13,9/15) en reclassant 1 000 échantillons avec une fonction de notation apprise. Un score de 13,9 le place parmi les 500 meilleurs élèves au niveau national et au-dessus du seuil d'admission aux Olympiades de mathématiques des États-Unis.

Nous avons également évalué o1 sur GPQA diamond, un benchmark d'intelligence difficile qui teste l'expertise en chimie, physique et biologie. Afin de comparer les modèles aux humains, nous avons recruté des experts titulaires d'un doctorat pour répondre aux questions du GPQA-diamond. Nous avons constaté que o1 a surpassé les performances de ces experts humains, devenant ainsi le premier modèle à le faire sur ce benchmark. Ces résultats n'impliquent pas que o1 soit plus performant qu'un docteur en tous points, mais seulement que le modèle est plus compétent pour résoudre certains problèmes qu'un docteur devrait résoudre. Sur plusieurs autres benchmarks de ML, o1 s'est amélioré par rapport à l'état de l'art. Avec ses capacités de perception de la vision activées, o1 a obtenu un score de 78,2 % sur MMMU, ce qui en fait le premier modèle à être compétitif par rapport aux experts humains. Il a également surpassé GPT-4o dans 54 des 57 sous-catégories du MMLU.

Chaîne de pensée

À l'instar d'un être humain qui peut réfléchir longuement avant de répondre à une question difficile, o1 utilise une chaîne de pensée lorsqu'il tente de résoudre un problème. Grâce à l'apprentissage par renforcement, o1 apprend à affiner sa chaîne de pensée et à perfectionner les stratégies qu'il utilise. Il apprend à reconnaître et à corriger ses erreurs. Il apprend à décomposer les étapes délicates en étapes plus simples. Il apprend à essayer une approche différente lorsque l'approche actuelle ne fonctionne pas. Ce processus améliore considérablement la capacité de raisonnement du modèle. L'illustration suivant montre l'amélioration que la chaîne de pensée apporte à OpenAI o1-preview par rapport à GPT-4o :

Nom : 3.jpg
Affichages : 6363
Taille : 50,5 Ko

Codage

Nous avons entraîné un modèle qui a obtenu 213 points et s'est classé dans le 49e percentile aux Olympiades internationales d'informatique (IOI) de 2024, en initialisant à partir de o1 et en s'entraînant pour améliorer encore les compétences en programmation. Ce modèle a participé à l'IOI 2024 dans les mêmes conditions que les concurrents humains. Il disposait de dix heures pour résoudre six problèmes algorithmiques difficiles et avait droit à 50 soumissions par problème.

Pour chaque problème, notre système a échantillonné de nombreux candidats et en a soumis 50 sur la base d'une stratégie de sélection basée sur le temps de test. Les soumissions ont été sélectionnées sur la base de la performance sur les cas de test publics de l'IOI, les cas de test générés par le modèle et une fonction de notation apprise. Si nous avions soumis au hasard, nous n'aurions obtenu que 156 points en moyenne, ce qui suggère que cette stratégie valait près de 60 points sous les contraintes de la compétition.

Avec une contrainte de soumission assouplie, nous avons constaté que les performances du modèle s'amélioraient de manière significative. Avec 10 000 soumissions par problème, le modèle a obtenu un score de 362,14 - supérieur au seuil de la médaille d'or - même sans aucune stratégie de sélection du temps de test.

Enfin, nous avons simulé des concours de programmation organisés par Codeforces pour démontrer les compétences de codage de ce modèle. Nos évaluations correspondaient étroitement aux règles du concours et permettaient 10 soumissions. GPT-4o a obtenu une note Elo3 de 808, ce qui correspond au 11e percentile des concurrents humains. Ce modèle a largement dépassé GPT-4o et o1 - il a obtenu une note Elo de 1807, soit une performance supérieure à celle de 93 % des concurrents.

Nom : 4.jpg
Affichages : 6354
Taille : 30,4 Ko

Évaluation des préférences humaines

Outre les examens et les critères académiques, nous avons également évalué la préférence humaine de o1-preview par rapport à GPT-4o sur des questions difficiles et ouvertes dans un large éventail de domaines. Dans cette évaluation, des formateurs humains ont reçu des réponses anonymes à une question posée par o1-preview et GPT-4o, et ont voté pour la réponse qu'ils préféraient. o1-preview est préféré à GPT-4o par une grande marge dans les catégories à forte capacité de raisonnement comme l'analyse de données, le codage et les mathématiques. Cependant, o1-preview n'est pas préféré dans certaines tâches de langage naturel, ce qui suggère qu'il n'est pas adapté à tous les cas d'utilisation.

Nom : 5.jpg
Affichages : 6345
Taille : 40,4 Ko

Sécurité

Le raisonnement par chaîne de pensée offre de nouvelles possibilités d'alignement et de sécurité. Nous avons constaté que l'intégration de nos politiques de comportement du modèle dans la chaîne de pensée d'un modèle de raisonnement est un moyen efficace d'enseigner de manière robuste les valeurs et les principes humains. En enseignant au modèle nos règles de sécurité et la manière de raisonner à leur sujet dans le contexte, nous avons trouvé des preuves que la capacité de raisonnement profite directement à la robustesse du modèle : o1-preview a obtenu des performances considérablement améliorées sur les évaluations clés de jailbreak et nos repères internes les plus durs pour évaluer les limites de refus de la sécurité de notre modèle. Nous pensons que l'utilisation d'une chaîne de pensée offre des avancées significatives en matière de sécurité et d'alignement car (1) elle nous permet d'observer le raisonnement du modèle de manière lisible, et (2) le raisonnement du modèle sur les règles de sécurité est plus robuste face aux scénarios de non-distribution.

Pour tester nos améliorations, nous avons procédé à une série de tests de sécurité et à un red-teaming avant le déploiement, conformément à notre Preparedness Framework (s'ouvre dans une nouvelle fenêtre). Nous avons constaté que le raisonnement en chaîne de pensée a contribué à l'amélioration des capacités dans l'ensemble de nos évaluations. En particulier, nous avons observé des cas intéressants de piratage de récompenses. Les résultats détaillés de ces évaluations sont présentés dans la carte système ci-jointe.

Nom : 6.jpg
Affichages : 6345
Taille : 73,9 Ko

Cacher la chaîne de pensée

Nous pensons qu'une chaîne de pensée cachée présente une opportunité unique pour les modèles de surveillance. En supposant qu'elle soit fidèle et lisible, la chaîne de pensée cachée nous permet de "lire dans l'esprit" du modèle et de comprendre son processus de pensée. Par exemple, à l'avenir, nous pourrions souhaiter surveiller la chaîne de pensée pour y déceler des signes de manipulation de l'utilisateur. Cependant, pour que cela fonctionne, le modèle doit avoir la liberté d'exprimer ses pensées sous une forme inchangée, de sorte que nous ne pouvons pas intégrer à la chaîne de pensée une quelconque conformité à la politique ou aux préférences de l'utilisateur. Nous ne voulons pas non plus qu'une chaîne de pensée non alignée soit directement visible par les utilisateurs.

C'est pourquoi, après avoir évalué plusieurs facteurs, notamment l'expérience de l'utilisateur, l'avantage concurrentiel et la possibilité de poursuivre la surveillance de la chaîne de pensée, nous avons décidé de ne pas montrer les chaînes de pensée brutes aux utilisateurs. Nous reconnaissons que cette décision présente des inconvénients. Nous nous efforçons de compenser partiellement ces inconvénients en apprenant au modèle à reproduire toute idée utile de la chaîne de pensée dans la réponse. Pour la série de modèles o1, nous montrons un résumé de la chaîne de pensée généré par le modèle.

Conclusion

o1 fait progresser de manière significative l'état de l'art en matière de raisonnement IA. Nous prévoyons de publier des versions améliorées de ce modèle au fur et à mesure de notre travail d'itération. Nous pensons que ces nouvelles capacités de raisonnement amélioreront notre capacité à aligner les modèles sur les valeurs et les principes humains. Nous pensons qu'o1 - et ses successeurs - débloqueront de nombreux nouveaux cas d'utilisation de l'IA dans les domaines de la science, du codage, des mathématiques et d'autres domaines connexes. Nous sommes impatients que les utilisateurs et les développeurs d'API découvrent comment l'IA peut améliorer leur travail quotidien.

Source : OpenAI

Et vous ?

Quel est votre avis sur ce nouveau produit d'OpenAI ?

Voir aussi :

OpenAI lance des modèles d'IA dotés de capacités de « raisonnement » semblables à celles d'une personne. Les modèles « Strawberry » peuvent décomposer des problèmes complexes en étapes logiques plus petites

Malgré leurs fortes capacités de raisonnement inductif, les LLM ont tendance à manquer de capacités de raisonnement déductif, en particulier dans les tâches impliquant un raisonnement "contrefactuel"

Des chercheurs ont donné à l'IA un "monologue intérieur" qui a permis d'améliorer considérablement ses performances : Quiet-STaR. Les modèles de langage peuvent apprendre à réfléchir avant de parler

Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3

**Stéphane le calme** · 19/09/2024, 15h17

OpenAI menace de bannir ceux qui tentent de découvrir le processus de raisonnement de son IA «Strawberry», craignant la concurrence.
Paradoxalement, son IA a été formée sur du matériel sous copyright sans rémunération des auteurs

OpenAI, l’un des leaders mondiaux dans le domaine de l’intelligence artificielle, a récemment suscité la controverse en menaçant de bannir les utilisateurs qui tentent de découvrir les processus de raisonnement de ses derniers modèles d’IA, surnommés “Strawberry”. Les modèles “Strawberry”, lancés sous les noms de code o1-preview et o1-mini, sont présentés comme des avancées majeures dans le domaine du raisonnement artificiel.

Contrairement aux modèles précédents, ces nouveaux modèles sont conçus pour résoudre des problèmes de manière étape par étape avant de générer une réponse. Cependant, OpenAI a choisi de masquer le processus de raisonnement brut, ne montrant aux utilisateurs qu’une interprétation filtrée créée par un second modèle d’IA. Cette décision a provoqué une vague de critiques de la part de la communauté technologique et des chercheurs en IA.

OpenAI justifie cette mesure en invoquant des préoccupations de sécurité et de concurrence. En cachant le processus de raisonnement brut, l’entreprise espère éviter que ses modèles ne soient utilisés pour entraîner des modèles concurrents. Cependant, cette approche soulève des questions sur la responsabilité et la transparence dans le développement de l’IA.

Paradoxalement, son IA a été formée sur du matériel sous copyright sans rémunération des auteurs, OpenAI assurant ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé par le droit d'auteur

OpenAI ne veut vraiment pas que vous sachiez ce que son dernier modèle d'IA « pense ». Depuis que la société a lancé sa famille de modèles d'IA « Strawberry » la semaine dernière, en vantant ses soi-disant capacités de raisonnement avec o1-preview et o1-mini, OpenAI envoie des courriels d'avertissement et des menaces de bannissement à tous les utilisateurs qui tentent de sonder le fonctionnement du modèle.

Contrairement aux modèles d'IA précédents d'OpenAI, tels que GPT-4o, l'entreprise a formé o1 spécifiquement pour qu'il suive un processus de résolution de problèmes étape par étape avant de générer une réponse. Lorsque les utilisateurs posent une question à un modèle « o1 » dans ChatGPT, ils ont la possibilité de voir ce processus de réflexion écrit dans l'interface de ChatGPT. Cependant, de par sa conception, OpenAI cache la chaîne de pensée brute aux utilisateurs, en leur présentant plutôt une interprétation filtrée créée par un second modèle d'IA.

Rien n'est plus séduisant pour les passionnés qu'une information cachée, c'est pourquoi les hackers et les red-teamers se sont lancés dans une course pour essayer de découvrir la chaîne de pensée brute d'o1 en utilisant des techniques de jailbreaking ou d'injection de prompt qui tentent de tromper le modèle pour qu'il dévoile ses secrets. Les premiers rapports font état de quelques succès, mais rien n'a encore été confirmé avec force.

Nom : humain.png
Affichages : 4832
Taille : 49,1 Ko

Les avertissements d’OpenAI

Pendant ce temps, OpenAI surveille l'interface ChatGPT, et l'entreprise s'opposerait fermement à toute tentative de sonder le raisonnement d'o1, même parmi les simples curieux.

Un utilisateur de X a rapporté (ce qui a été confirmé par d'autres, notamment par Riley Goodside, ingénieur de Scale AI) qu'il recevait un courriel d'avertissement s'il utilisait le terme « trace de raisonnement » dans une conversation avec o1. D'autres disent que l'avertissement est déclenché simplement en posant des questions à ChatGPT sur le « raisonnement » du modèle.

i get the scary letter if i mention the words "reasoning trace" in a prompt at all, lol
— thebes (@voooooogel) September 13, 2024

Le courriel d'avertissement d'OpenAI indique que des demandes d'utilisateurs spécifiques ont été signalées pour violation des politiques contre le contournement des protections ou des mesures de sécurité. « Veuillez cesser cette activité et vous assurer que vous utilisez ChatGPT conformément à nos conditions d'utilisation et à nos politiques d'utilisation », peut-on lire. « D'autres violations de cette politique peuvent entraîner la perte de l'accès à GPT-4o with Reasoning », en référence à un nom interne pour le modèle o1.

Marco Figueroa, qui gère les programmes de bug bounty GenAI de Mozilla, a été l'un des premiers à parler de l'email d'avertissement d'OpenAI sur X vendredi dernier, se plaignant que cela entrave sa capacité à effectuer des recherches de sécurité positives en red-teaming sur le modèle. « J'étais trop perdu à me concentrer sur #AIRedTeaming pour réaliser que j'ai reçu cet email d'@OpenAI hier après tous mes jailbreaks », a-t-il écrit. « Je suis maintenant sur la liste des personnes à bannir !!! ».

I was too lost focusing on #AIRedTeaming to realized that I received this email from @OpenAI yesterday after all my jailbreaks! #openAI we are researching for good!

You do have a safe harbor on your site https://t.co/R2UChZc9RO
and you have a policy implemented with… pic.twitter.com/ginDvNlN6M
— MarcoFigueroa (@MarcoFigueroa) September 13, 2024

Chaînes de pensée cachées

Dans un article intitulé « Learning to Reason with LLMs » (Apprendre à raisonner avec les LLM) sur le blog d'OpenAI, l'entreprise explique que les chaînes de pensée cachées dans les modèles d'IA offrent une opportunité unique de surveillance, permettant de « lire l'esprit » du modèle et de comprendre ce que l'on appelle son processus de pensée. Ces processus sont plus utiles à l'entreprise s'ils sont laissés bruts et non censurés, mais cela pourrait ne pas correspondre aux meilleurs intérêts commerciaux de l'entreprise pour plusieurs raisons.

« Par exemple, à l'avenir, nous pourrions souhaiter surveiller la chaîne de pensée pour y déceler des signes de manipulation de l'utilisateur », écrit l'entreprise. « Toutefois, pour que cela fonctionne, le modèle doit avoir la liberté d'exprimer ses pensées sous une forme inchangée, de sorte que nous ne pouvons pas appliquer à la chaîne de pensée une quelconque conformité à la politique ou aux préférences de l'utilisateur. Nous ne voulons pas non plus qu'une chaîne de pensée non alignée soit directement visible par les utilisateurs ».

OpenAI a décidé de ne pas montrer ces chaînes de pensée brutes aux utilisateurs, citant des facteurs tels que la nécessité de conserver un flux brut pour son propre usage, l'expérience de l'utilisateur et un « avantage concurrentiel ». L'entreprise reconnaît que cette décision présente des inconvénients. « Nous nous efforçons de compenser partiellement ces inconvénients en apprenant au modèle à reproduire toutes les idées utiles de la chaîne de pensée dans la réponse », écrivent-ils.

Réactions et critiques

La décision d’OpenAI a été vivement critiquée par les chercheurs et les développeurs en IA. Simon Willison, un chercheur indépendant en IA, a exprimé sa frustration en déclarant que la transparence et l’interprétabilité sont essentielles pour le développement des modèles d’IA : « J'interprète cela comme une volonté d'éviter que d'autres modèles puissent s'entraîner sur le travail de raisonnement dans lequel ils ont investi ». Il a ajouté que masquer les détails clés du processus de raisonnement représente un pas en arrière pour la communauté technologique.

C'est un secret de polichinelle dans l'industrie de l'IA que les chercheurs utilisent régulièrement les résultats du GPT-4 de l'OpenAI (et du GPT-3 avant cela) comme données d'entraînement pour des modèles d'IA qui deviennent souvent des concurrents par la suite, même si cette pratique viole les conditions de service d'OpenAI. L'exposition de la chaîne de pensée brute d'o1 constituerait une mine de données d'entraînement pour les concurrents, qui pourraient ainsi former des modèles de « raisonnement » similaires à o1.

Willison estime que le fait qu'OpenAI garde le silence sur les rouages d'o1 constitue une perte pour la transparence de la communauté. « Je ne suis pas du tout satisfait de cette décision politique », a écrit Willison. « En tant que développeur sur les LLM, l'interprétabilité et la transparence sont essentielles pour moi. L'idée que je puisse lancer une invite complexe et que les détails clés de l'évaluation de cette invite me soient cachés me semble être un grand pas en arrière ».

Source : OpenAI, Simon Willison

Et vous ?

Que pensez-vous de la position d'OpenAI qui évoque des préoccupations liées à la concurrence pour justifier sa décision, tandis que l'entreprise récupère des données sous copyright pour entraîner son IA sans rémunération des ayants droit ?

Quels sont les avantages et les inconvénients de la transparence totale dans le développement des modèles d’IA ?

Comment les entreprises peuvent-elles équilibrer la protection de leurs innovations avec la nécessité de transparence pour la communauté scientifique ?

Pensez-vous que les utilisateurs devraient avoir le droit d’explorer et de comprendre le raisonnement des modèles d’IA qu’ils utilisent ? Pourquoi ou pourquoi pas ?

Quelles mesures de sécurité pourraient être mises en place pour permettre une plus grande transparence sans compromettre les intérêts commerciaux ?

Comment la communauté technologique peut-elle collaborer pour établir des normes éthiques concernant la transparence et l’interprétabilité des modèles d’IA ?

Quels pourraient être les impacts à long terme de la rétention d’informations sur le développement et l’adoption de l’IA ?

Comment les utilisateurs peuvent-ils influencer les politiques des entreprises comme OpenAI concernant la transparence et l’accès aux données ?

**OrthodoxWindows** · 19/09/2024, 16h19

Paradoxalement, son IA a été formée sur du matériel sous copyright sans rémunération des auteurs, OpenAI assurant ne pas pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé par le droit d'auteur

Car ce qui devait arriver est arrivé. Les multinationales du divertissement (Sony, Warner, Disney...) se sont battus pour défendre le droit d'auteur, non pas pour protéger les auteurs, mais pour maintenir leurs bénéfices. Elle se sont servis en grande parti des multinationales du numérique pour parvenir à leur fins. Aujourd'hui, l'intérêt des multinationales du numérique n'est plus de défendre les multinationales du divertissement, mais de développer le plus vite possible leurs modèles d'IA. Et les multinationales du divertissement on font les frais.

Invité · 20/09/2024, 10h29

L'idée que je puisse lancer une invite complexe et que les détails clés de l'évaluation de cette invite me soient cachés me semble être un grand pas en arrière ».

Nan, ça n'est pas qu'il s'agisse d'un grand pas en arrière, c'est que les opérateurs avancent à reculons ; ça n'a franchement rien de nouveau puisqu'il s'agit de privatiser les bénéfices et de socialiser les pertes (qu'elles soient financières, intellectuelles, etc.). Il ne s'agit que d'une affaire de dominance.
kicékiala+ ...

OpenAI contraint de ralentir le déploiement de GPT-4.5 : Sam Altman révèle qu’OpenAI manque de GPU

Intelligence artificielle

Discussions similaires

Partager

Partager