OpenAI affirme que les nouveaux modèles d'IA o3 et o4-mini, entraînés à réfléchir plus longtemps avant de répondre, peuvent « penser avec des images », c'est-à-dire comprendre des diagrammes et des croquis.
OpenAI a publié son tout nouveau modèle d'IA qui, selon elle, peut comprendre les images téléchargées telles que les tableaux blancs, les croquis et les diagrammes, même s'ils sont de faible qualité. L'entreprise a qualifié o3 de modèle le plus avancé à ce jour et a également lancé un modèle plus petit appelé o4-mini.
OpenAI a publié son dernier modèle d'intelligence artificielle (IA), capable de "penser avec des images", c'est-à-dire de comprendre et d'analyser les croquis et les diagrammes d'un utilisateur, même s'ils sont de mauvaise qualité. Pour rappel, OpenAI est une organisation américaine de recherche en intelligence artificielle (IA) fondée en décembre 2015. Considérée comme organisation leader dans le boom actuel de l'IA, OpenAI est connue pour la famille GPT de grands modèles de langage, la série DALL-E de modèles texte-image et un modèle texte-vidéo appelé Sora.
Le principal nouveau modèle de raisonnement d'OpenAI s'appelle o3, et la société a simultanément lancé un modèle plus petit appelé o4-mini. Ce lancement fait suite à la présentation en septembre du premier modèle de raisonnement d'OpenAI, o1, qui se concentre sur la résolution de problèmes complexes et la réflexion sur les réponses en plusieurs étapes.
Avec o3, les utilisateurs peuvent télécharger des tableaux blancs, des croquis et d'autres images et demander à l'IA de les analyser et d'en discuter. Les modèles peuvent également pivoter, zoomer et utiliser d'autres outils d'édition d'images.
Depuis l'introduction de son chatbot viral ChatGPT à la fin de 2022, OpenAI a rapidement amélioré ses modèles pour qu'ils aillent bien au-delà du texte, vers les images, la voix et les vidéos. L'entreprise fait la course pour rester en tête dans le domaine de l'IA générative, où elle est confrontée à une concurrence féroce de la part de rivaux tels que Google, Anthropic et Elon Musk.
"Pour la première fois, nos modèles de raisonnement peuvent utiliser indépendamment tous les outils de ChatGPT - navigation web, Python, compréhension d'images et génération d'images", annonce OpenAI. "Cela les aide à résoudre plus efficacement des problèmes complexes à plusieurs étapes et à prendre des mesures concrètes pour agir de manière autonome."
L'entreprise, évaluée à 300 milliards de dollars lors de son dernier tour de table, a déclaré que o3 et o4-mini sont ses premiers modèles d'IA capables de "penser avec des images". Cela signifie "qu'ils ne se contentent pas de voir une image, mais qu'ils peuvent intégrer des informations visuelles directement dans la chaîne de raisonnement", selon OpenAI. Récemment, OpenAI a lancé une fonction native de génération d'images qui est devenue virale en ligne en raison de sa capacité à produire des images animées de style Studio Ghibli.
OpenAI a déclaré que son modèle o3 est spécialement conçu pour les mathématiques, le codage, la science et la compréhension des images, tandis que le modèle o4-mini fonctionne plus rapidement et à moindre coût. Les deux modèles sont disponibles pour les clients ChatGPT Plus, Pro et Team.
La communauté des utilisateurs d'OpenAI plaisante depuis longtemps sur les noms étranges ou déroutants de ses modèles d'IA. Le PDG Sam Altman s'est joint à la plaisanterie cette semaine, en écrivant dans un message sur X : "Et si nous corrigions le nom de nos modèles d'ici l'été et que tout le monde avait quelques mois de plus pour se moquer de nous (ce que nous méritons bien) d'ici là ?".
La société a également déclaré que les deux modèles avaient été "testés sous contrainte dans le cadre de notre programme de sécurité le plus rigoureux à ce jour" et qu'ils étaient liés à son "cadre de préparation" » mis à jour plus tôt cette semaine.
OpenAI a récemment fait l'objet de critiques pour avoir modifié ses précautions et ses processus de sécurité. Elle a déclaré qu'elle se réservait le droit de "modifier ses exigences en matière de sécurité si un autre développeur d'IA d'avant-garde mettait sur le marché un système à haut risque sans mesures de protection comparables".
En modifiant ses politiques, OpenAI a écrit qu'elle n'exigerait plus de tests de sécurité pour certains modèles affinés. L'entreprise a également évité de publier une "carte de système" - ou un rapport contenant des informations sur les tests de sécurité effectués avant la mise sur le marché d'un modèle - pour son modèle GPT-4.1. En février, OpenAI a lancé l'outil d'agent d'IA Deep Research quelques semaines avant de publier sa carte de système.
Extrait de l'annonce d'OpenAI :
Voici quelques résultats de benchmarks présentés par OpenAI :Aujourd'hui, nous lançons OpenAI o3 et o4-mini, les derniers-nés de notre série o de modèles entraînés à réfléchir plus longtemps avant de répondre. Ce sont les modèles les plus intelligents que nous ayons publiés à ce jour, ce qui représente un changement radical dans les capacités de ChatGPT pour tout le monde, des utilisateurs curieux aux chercheurs avancés. Pour la première fois, nos modèles de raisonnement peuvent utiliser et combiner de manière active tous les outils de ChatGPT, y compris la recherche sur le Web, l'analyse des fichiers téléchargés et d'autres données avec Python, le raisonnement approfondi sur les entrées visuelles et même la génération d'images. Ces modèles sont entraînés à raisonner sur le moment et la manière d'utiliser les outils pour produire des réponses détaillées et réfléchies dans les bons formats de sortie, généralement en moins d'une minute, afin de résoudre des problèmes plus complexes. Cela leur permet d'aborder plus efficacement des questions à multiples facettes, une étape vers un ChatGPT plus agentique, capable d'exécuter des tâches en votre nom. La puissance combinée d'un raisonnement de pointe et d'un accès complet aux outils se traduit par des performances significativement plus élevées dans les tests académiques et les tâches du monde réel, établissant une nouvelle norme en termes d'intelligence et d'utilité.
Ce qui a changé
OpenAI o3 est notre modèle de raisonnement le plus puissant qui repousse les frontières du codage, des mathématiques, de la science, de la perception visuelle et plus encore. Il établit un nouveau SOTA sur des benchmarks tels que Codeforces, SWE-bench (sans construire un échafaudage personnalisé spécifique au modèle), et MMMU. Il est idéal pour les requêtes complexes nécessitant une analyse à multiples facettes et dont les réponses peuvent ne pas être immédiatement évidentes. Il est particulièrement performant pour les tâches visuelles telles que l'analyse d'images, de tableaux et de graphiques. Dans les évaluations réalisées par des experts externes, o3 commet 20 % d'erreurs majeures de moins qu'OpenAI o1 sur des tâches difficiles du monde réel, excellant particulièrement dans des domaines tels que la programmation, le commerce/le conseil et l'idéation créative. Les premiers testeurs ont souligné sa rigueur analytique en tant que partenaire de réflexion et ont insisté sur sa capacité à générer et à évaluer de manière critique de nouvelles hypothèses, en particulier dans les contextes de la biologie, des mathématiques et de l'ingénierie.
OpenAI o4-mini est un modèle plus petit optimisé pour un raisonnement rapide et rentable. Il atteint des performances remarquables pour sa taille et son coût, en particulier dans les tâches mathématiques, de codage et visuelles. Il s'agit du modèle de référence le plus performant sur AIME 2024 et 2025. Dans les évaluations d'experts, il surpasse également son prédécesseur, o3-mini, dans les tâches non-STEM ainsi que dans des domaines tels que la science des données. Grâce à son efficacité, o4-mini prend en charge des limites d'utilisation nettement plus élevées que o3, ce qui en fait une option solide pour les questions à haut volume et à haut débit qui bénéficient d'un raisonnement.
Les évaluateurs experts externes ont estimé que les deux modèles démontraient un meilleur suivi des instructions et des réponses plus utiles et vérifiables que leurs prédécesseurs, grâce à l'amélioration de l'intelligence et à l'inclusion de sources Web. Par rapport aux itérations précédentes de nos modèles de raisonnement, ces deux modèles devraient également sembler plus naturels et conversationnels, en particulier parce qu'ils font référence à la mémoire et aux conversations passées pour rendre les réponses plus personnalisées et plus pertinentes.
Penser avec des images
Fait intéressant, OpenAI affirme que ces modèles peuvent intégrer des images directement dans leur chaîne de pensée. Ils ne se contentent pas de voir une image, "ils pensent avec elle". Cela ouvre la voie à une nouvelle catégorie de résolution de problèmes qui mêle le raisonnement visuel et textuel, comme en témoignent les performances de ces modèles dans les tests de référence multimodaux.
Les utilisateurs peuvent télécharger une photo d'un tableau blanc, d'un diagramme de manuel ou d'un croquis dessiné à la main, et le modèle peut l'interpréter, "même si l'image est floue, inversée ou de mauvaise qualité", selon OpenAI. Avec l'utilisation d'outils, les modèles peuvent manipuler les images à la volée, en les faisant pivoter, en les zoomant ou en les transformant dans le cadre de leur processus de raisonnement.
Ces modèles offrent une meilleure précision dans les tâches de perception visuelle, ce qui leur permet de résoudre des questions qui étaient auparavant hors de portée.
Poursuivre la mise à l'échelle de l'apprentissage par renforcement
OpenAI affirme que l'apprentissage par renforcement à grande échelle lors du développement d'o3 présente la même tendance "plus de calcul = meilleure performance" que celle observée dans le pré-entraînement de la série GPT. "En retraçant le chemin de la mise à l'échelle - cette fois-ci en RL - nous avons poussé un ordre de grandeur supplémentaire à la fois dans le calcul de l'entraînement et le raisonnement du temps d'inférence, tout en constatant des gains de performance évidents, validant ainsi que la performance des modèles continue de s'améliorer à mesure qu'ils sont autorisés à penser", déclare OpenAI. À latence et coût égaux avec OpenAI o1, o3 offrirait donc de meilleures performances dans ChatGPT.
Les deux modèles ont également été formés à l'utilisation d'outils grâce à l'apprentissage par renforcement, en leur apprenant à utiliser des outils et à raisonner sur le moment de les utiliser. "Leur capacité à déployer des outils en fonction des résultats souhaités les rend plus compétents dans les situations ouvertes, en particulier celles qui impliquent un raisonnement visuel et des flux de travail en plusieurs étapes", selon l'entreprise.
Vers une utilisation agentique des outils
OpenAI a donné à o3 et o4-mini un accès complet aux outils de ChatGPT, ainsi qu'à vos propres outils personnalisés via l'appel de fonctions dans l'API. Ces modèles seraient entraînés à raisonner sur la façon de résoudre les problèmes, en choisissant quand et comment utiliser les outils pour produire rapidement des réponses détaillées et réfléchies dans les bons formats de sortie.
OpenAI affirme : "Cette approche flexible et stratégique permet aux modèles de s'attaquer à des tâches qui requièrent l'accès à des informations actualisées au-delà des connaissances intégrées du modèle, un raisonnement étendu, une synthèse et une génération de résultats à travers les modalités. OpenAI o3 et o4-mini sont les modèles les plus intelligents que nous ayons jamais publiés, et ils sont aussi souvent plus efficaces que leurs prédécesseurs, OpenAI o1 et o3-mini. Plus généralement, nous pensons que pour la plupart des utilisations réelles, o3 et o4-mini seront à la fois plus intelligents et moins chers que o1 et o3-mini, respectivement."
Codex CLI : raisonnement à la frontière dans le terminal
Avec cette présentation, OpenAI a partagé également Codex CLI, un agent de codage léger que vous pouvez exécuter à partir de votre terminal. Il fonctionne directement sur votre ordinateur et est conçu pour maximiser les capacités de raisonnement de modèles tels que o3 et o4-mini, avec une prise en charge prochaine de modèles d'API supplémentaires tels que GPT-4.1.
Vous pouvez bénéficier des avantages du raisonnement multimodal à partir de la ligne de commande en passant des captures d'écran ou des croquis de faible fidélité au modèle, combinés à l'accès à votre code localement. Selon OpenAI, il s'agit d'une interface minimale pour connecter ses modèles aux utilisateurs et à leurs ordinateurs.
Codex CLI serait entièrement open-source. Parallèlement, OpenAI a lancé une initiative d'un million de dollars pour soutenir les projets utilisant Codex CLI et les modèles OpenAI.
OpenAI a conclu sa présentation en déclarant :
Les mises à jour d'aujourd'hui reflètent la direction que prennent nos modèles : nous faisons converger les capacités de raisonnement spécialisées de la série o avec les capacités de conversation naturelle et l'utilisation d'outils de la série GPT. En unifiant ces forces, nos futurs modèles permettront des conversations transparentes et naturelles, ainsi que l'utilisation proactive d'outils et la résolution de problèmes avancés.
Et vous ?
Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur ces modèles ?
Voir aussi :
OpenAI dévoile GPT-4.1, axée sur le codage, et abandonne progressivement GPT-4.5 : GPT-4.1 ne sera disponible que par l'intermédiaire de l'API développeur et non dans l'interface ChatGPT
OpenAI change de cap et annule le lancement de son modèle d'IA o3 au profit d'une version « unifiée » baptisée GPT-5. Sam Altman évoque un souci de simplification mais certains y voient un problème de coûts
OpenAI envisagerait de facturer jusqu'à 20 000 dollars par mois l'accès à ses agents d'IA de niveau doctorat. Un prix controversé en raison de l'hallucination et des nombreuses autres limites de l'IA
Partager