IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Les modèles o3 et o4-mini affichent des taux d'hallucination nettement plus élevés que les modèles précédents


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 166
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 166
    Par défaut Les modèles o3 et o4-mini affichent des taux d'hallucination nettement plus élevés que les modèles précédents
    OpenAI affirme que les nouveaux modèles d'IA o3 et o4-mini, entraînés à réfléchir plus longtemps avant de répondre, peuvent « penser avec des images », c'est-à-dire comprendre des diagrammes et des croquis.

    OpenAI a publié son tout nouveau modèle d'IA qui, selon elle, peut comprendre les images téléchargées telles que les tableaux blancs, les croquis et les diagrammes, même s'ils sont de faible qualité. L'entreprise a qualifié o3 de modèle le plus avancé à ce jour et a également lancé un modèle plus petit appelé o4-mini.

    OpenAI a publié son dernier modèle d'intelligence artificielle (IA), capable de "penser avec des images", c'est-à-dire de comprendre et d'analyser les croquis et les diagrammes d'un utilisateur, même s'ils sont de mauvaise qualité. Pour rappel, OpenAI est une organisation américaine de recherche en intelligence artificielle (IA) fondée en décembre 2015. Considérée comme organisation leader dans le boom actuel de l'IA, OpenAI est connue pour la famille GPT de grands modèles de langage, la série DALL-E de modèles texte-image et un modèle texte-vidéo appelé Sora.

    Le principal nouveau modèle de raisonnement d'OpenAI s'appelle o3, et la société a simultanément lancé un modèle plus petit appelé o4-mini. Ce lancement fait suite à la présentation en septembre du premier modèle de raisonnement d'OpenAI, o1, qui se concentre sur la résolution de problèmes complexes et la réflexion sur les réponses en plusieurs étapes.

    Avec o3, les utilisateurs peuvent télécharger des tableaux blancs, des croquis et d'autres images et demander à l'IA de les analyser et d'en discuter. Les modèles peuvent également pivoter, zoomer et utiliser d'autres outils d'édition d'images.

    Depuis l'introduction de son chatbot viral ChatGPT à la fin de 2022, OpenAI a rapidement amélioré ses modèles pour qu'ils aillent bien au-delà du texte, vers les images, la voix et les vidéos. L'entreprise fait la course pour rester en tête dans le domaine de l'IA générative, où elle est confrontée à une concurrence féroce de la part de rivaux tels que Google, Anthropic et Elon Musk.


    "Pour la première fois, nos modèles de raisonnement peuvent utiliser indépendamment tous les outils de ChatGPT - navigation web, Python, compréhension d'images et génération d'images", annonce OpenAI. "Cela les aide à résoudre plus efficacement des problèmes complexes à plusieurs étapes et à prendre des mesures concrètes pour agir de manière autonome."

    L'entreprise, évaluée à 300 milliards de dollars lors de son dernier tour de table, a déclaré que o3 et o4-mini sont ses premiers modèles d'IA capables de "penser avec des images". Cela signifie "qu'ils ne se contentent pas de voir une image, mais qu'ils peuvent intégrer des informations visuelles directement dans la chaîne de raisonnement", selon OpenAI. Récemment, OpenAI a lancé une fonction native de génération d'images qui est devenue virale en ligne en raison de sa capacité à produire des images animées de style Studio Ghibli.

    OpenAI a déclaré que son modèle o3 est spécialement conçu pour les mathématiques, le codage, la science et la compréhension des images, tandis que le modèle o4-mini fonctionne plus rapidement et à moindre coût. Les deux modèles sont disponibles pour les clients ChatGPT Plus, Pro et Team.

    La communauté des utilisateurs d'OpenAI plaisante depuis longtemps sur les noms étranges ou déroutants de ses modèles d'IA. Le PDG Sam Altman s'est joint à la plaisanterie cette semaine, en écrivant dans un message sur X : "Et si nous corrigions le nom de nos modèles d'ici l'été et que tout le monde avait quelques mois de plus pour se moquer de nous (ce que nous méritons bien) d'ici là ?".

    La société a également déclaré que les deux modèles avaient été "testés sous contrainte dans le cadre de notre programme de sécurité le plus rigoureux à ce jour" et qu'ils étaient liés à son "cadre de préparation" » mis à jour plus tôt cette semaine.

    OpenAI a récemment fait l'objet de critiques pour avoir modifié ses précautions et ses processus de sécurité. Elle a déclaré qu'elle se réservait le droit de "modifier ses exigences en matière de sécurité si un autre développeur d'IA d'avant-garde mettait sur le marché un système à haut risque sans mesures de protection comparables".

    En modifiant ses politiques, OpenAI a écrit qu'elle n'exigerait plus de tests de sécurité pour certains modèles affinés. L'entreprise a également évité de publier une "carte de système" - ou un rapport contenant des informations sur les tests de sécurité effectués avant la mise sur le marché d'un modèle - pour son modèle GPT-4.1. En février, OpenAI a lancé l'outil d'agent d'IA Deep Research quelques semaines avant de publier sa carte de système.

    Extrait de l'annonce d'OpenAI :

    Aujourd'hui, nous lançons OpenAI o3 et o4-mini, les derniers-nés de notre série o de modèles entraînés à réfléchir plus longtemps avant de répondre. Ce sont les modèles les plus intelligents que nous ayons publiés à ce jour, ce qui représente un changement radical dans les capacités de ChatGPT pour tout le monde, des utilisateurs curieux aux chercheurs avancés. Pour la première fois, nos modèles de raisonnement peuvent utiliser et combiner de manière active tous les outils de ChatGPT, y compris la recherche sur le Web, l'analyse des fichiers téléchargés et d'autres données avec Python, le raisonnement approfondi sur les entrées visuelles et même la génération d'images. Ces modèles sont entraînés à raisonner sur le moment et la manière d'utiliser les outils pour produire des réponses détaillées et réfléchies dans les bons formats de sortie, généralement en moins d'une minute, afin de résoudre des problèmes plus complexes. Cela leur permet d'aborder plus efficacement des questions à multiples facettes, une étape vers un ChatGPT plus agentique, capable d'exécuter des tâches en votre nom. La puissance combinée d'un raisonnement de pointe et d'un accès complet aux outils se traduit par des performances significativement plus élevées dans les tests académiques et les tâches du monde réel, établissant une nouvelle norme en termes d'intelligence et d'utilité.

    Ce qui a changé

    OpenAI o3 est notre modèle de raisonnement le plus puissant qui repousse les frontières du codage, des mathématiques, de la science, de la perception visuelle et plus encore. Il établit un nouveau SOTA sur des benchmarks tels que Codeforces, SWE-bench (sans construire un échafaudage personnalisé spécifique au modèle), et MMMU. Il est idéal pour les requêtes complexes nécessitant une analyse à multiples facettes et dont les réponses peuvent ne pas être immédiatement évidentes. Il est particulièrement performant pour les tâches visuelles telles que l'analyse d'images, de tableaux et de graphiques. Dans les évaluations réalisées par des experts externes, o3 commet 20 % d'erreurs majeures de moins qu'OpenAI o1 sur des tâches difficiles du monde réel, excellant particulièrement dans des domaines tels que la programmation, le commerce/le conseil et l'idéation créative. Les premiers testeurs ont souligné sa rigueur analytique en tant que partenaire de réflexion et ont insisté sur sa capacité à générer et à évaluer de manière critique de nouvelles hypothèses, en particulier dans les contextes de la biologie, des mathématiques et de l'ingénierie.

    OpenAI o4-mini est un modèle plus petit optimisé pour un raisonnement rapide et rentable. Il atteint des performances remarquables pour sa taille et son coût, en particulier dans les tâches mathématiques, de codage et visuelles. Il s'agit du modèle de référence le plus performant sur AIME 2024 et 2025. Dans les évaluations d'experts, il surpasse également son prédécesseur, o3-mini, dans les tâches non-STEM ainsi que dans des domaines tels que la science des données. Grâce à son efficacité, o4-mini prend en charge des limites d'utilisation nettement plus élevées que o3, ce qui en fait une option solide pour les questions à haut volume et à haut débit qui bénéficient d'un raisonnement.

    Les évaluateurs experts externes ont estimé que les deux modèles démontraient un meilleur suivi des instructions et des réponses plus utiles et vérifiables que leurs prédécesseurs, grâce à l'amélioration de l'intelligence et à l'inclusion de sources Web. Par rapport aux itérations précédentes de nos modèles de raisonnement, ces deux modèles devraient également sembler plus naturels et conversationnels, en particulier parce qu'ils font référence à la mémoire et aux conversations passées pour rendre les réponses plus personnalisées et plus pertinentes.
    Voici quelques résultats de benchmarks présentés par OpenAI :

    Nom : 1.jpg
Affichages : 4272
Taille : 46,8 Ko
    Nom : 2.jpg
Affichages : 597
Taille : 42,1 Ko
    Nom : 3.jpg
Affichages : 601
Taille : 41,5 Ko

    Penser avec des images

    Fait intéressant, OpenAI affirme que ces modèles peuvent intégrer des images directement dans leur chaîne de pensée. Ils ne se contentent pas de voir une image, "ils pensent avec elle". Cela ouvre la voie à une nouvelle catégorie de résolution de problèmes qui mêle le raisonnement visuel et textuel, comme en témoignent les performances de ces modèles dans les tests de référence multimodaux.

    Les utilisateurs peuvent télécharger une photo d'un tableau blanc, d'un diagramme de manuel ou d'un croquis dessiné à la main, et le modèle peut l'interpréter, "même si l'image est floue, inversée ou de mauvaise qualité", selon OpenAI. Avec l'utilisation d'outils, les modèles peuvent manipuler les images à la volée, en les faisant pivoter, en les zoomant ou en les transformant dans le cadre de leur processus de raisonnement.

    Ces modèles offrent une meilleure précision dans les tâches de perception visuelle, ce qui leur permet de résoudre des questions qui étaient auparavant hors de portée.

    Nom : 4.jpg
Affichages : 608
Taille : 56,4 Ko

    Poursuivre la mise à l'échelle de l'apprentissage par renforcement

    OpenAI affirme que l'apprentissage par renforcement à grande échelle lors du développement d'o3 présente la même tendance "plus de calcul = meilleure performance" que celle observée dans le pré-entraînement de la série GPT. "En retraçant le chemin de la mise à l'échelle - cette fois-ci en RL - nous avons poussé un ordre de grandeur supplémentaire à la fois dans le calcul de l'entraînement et le raisonnement du temps d'inférence, tout en constatant des gains de performance évidents, validant ainsi que la performance des modèles continue de s'améliorer à mesure qu'ils sont autorisés à penser", déclare OpenAI. À latence et coût égaux avec OpenAI o1, o3 offrirait donc de meilleures performances dans ChatGPT.

    Les deux modèles ont également été formés à l'utilisation d'outils grâce à l'apprentissage par renforcement, en leur apprenant à utiliser des outils et à raisonner sur le moment de les utiliser. "Leur capacité à déployer des outils en fonction des résultats souhaités les rend plus compétents dans les situations ouvertes, en particulier celles qui impliquent un raisonnement visuel et des flux de travail en plusieurs étapes", selon l'entreprise.


    Vers une utilisation agentique des outils

    OpenAI a donné à o3 et o4-mini un accès complet aux outils de ChatGPT, ainsi qu'à vos propres outils personnalisés via l'appel de fonctions dans l'API. Ces modèles seraient entraînés à raisonner sur la façon de résoudre les problèmes, en choisissant quand et comment utiliser les outils pour produire rapidement des réponses détaillées et réfléchies dans les bons formats de sortie.

    OpenAI affirme : "Cette approche flexible et stratégique permet aux modèles de s'attaquer à des tâches qui requièrent l'accès à des informations actualisées au-delà des connaissances intégrées du modèle, un raisonnement étendu, une synthèse et une génération de résultats à travers les modalités. OpenAI o3 et o4-mini sont les modèles les plus intelligents que nous ayons jamais publiés, et ils sont aussi souvent plus efficaces que leurs prédécesseurs, OpenAI o1 et o3-mini. Plus généralement, nous pensons que pour la plupart des utilisations réelles, o3 et o4-mini seront à la fois plus intelligents et moins chers que o1 et o3-mini, respectivement."

    Nom : 5.jpg
Affichages : 609
Taille : 42,0 Ko

    Codex CLI : raisonnement à la frontière dans le terminal

    Avec cette présentation, OpenAI a partagé également Codex CLI, un agent de codage léger que vous pouvez exécuter à partir de votre terminal. Il fonctionne directement sur votre ordinateur et est conçu pour maximiser les capacités de raisonnement de modèles tels que o3 et o4-mini, avec une prise en charge prochaine de modèles d'API supplémentaires tels que GPT-4.1.

    Vous pouvez bénéficier des avantages du raisonnement multimodal à partir de la ligne de commande en passant des captures d'écran ou des croquis de faible fidélité au modèle, combinés à l'accès à votre code localement. Selon OpenAI, il s'agit d'une interface minimale pour connecter ses modèles aux utilisateurs et à leurs ordinateurs.

    Codex CLI serait entièrement open-source. Parallèlement, OpenAI a lancé une initiative d'un million de dollars pour soutenir les projets utilisant Codex CLI et les modèles OpenAI.

    OpenAI a conclu sa présentation en déclarant :

    Les mises à jour d'aujourd'hui reflètent la direction que prennent nos modèles : nous faisons converger les capacités de raisonnement spécialisées de la série o avec les capacités de conversation naturelle et l'utilisation d'outils de la série GPT. En unifiant ces forces, nos futurs modèles permettront des conversations transparentes et naturelles, ainsi que l'utilisation proactive d'outils et la résolution de problèmes avancés.

    Et vous ?

    Pensez-vous que cette annonce est crédible ou pertinente ?
    Quel est votre avis sur ces modèles ?

    Voir aussi :

    OpenAI dévoile GPT-4.1, axée sur le codage, et abandonne progressivement GPT-4.5 : GPT-4.1 ne sera disponible que par l'intermédiaire de l'API développeur et non dans l'interface ChatGPT

    OpenAI change de cap et annule le lancement de son modèle d'IA o3 au profit d'une version « unifiée » baptisée GPT-5. Sam Altman évoque un souci de simplification mais certains y voient un problème de coûts

    OpenAI envisagerait de facturer jusqu'à 20 000 dollars par mois l'accès à ses agents d'IA de niveau doctorat. Un prix controversé en raison de l'hallucination et des nombreuses autres limites de l'IA
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 166
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 166
    Par défaut La puissante perception visuelle de ChatGPT o3 peut déterminer votre emplacement exact
    La puissante perception visuelle de ChatGPT o3 peut déterminer votre emplacement exact à partir de photos avec une précision effrayante, et révèle également le vrai nom de l'utilisateur

    La puissante perception visuelle de ChatGPT o3 peut déterminer votre emplacement exact à partir de photos avec une précision effrayante, et révèle également le vrai nom de l'utilisateur. Cela représente un nouveau risque considérable pour la vie privée et le doxxing ou la divulgation de données personnelles en ligne.

    Récemment, OpenAI a publié ses modèles de raisonnement o3 et o4-mini. Selon OpenAI, o3 est capable de "penser avec des images", c'est-à-dire de comprendre et d'analyser les croquis et les diagrammes d'un utilisateur, même s'ils sont de mauvaise qualité. Les modèles peuvent également pivoter, zoomer et utiliser d'autres outils d'édition d'images. L'entreprise a qualifié o3 de modèle le plus avancé à ce jour.

    Plus récemment, un rapport a révélé que des personnes utilisent la puissante perception visuelle de o3 pour identifier des données de localisation à partir de photos sur ChatGPT. Dans la plupart des cas, o3 est capable de reconnaître correctement l'emplacement exact en regardant simplement l'image. Selon le rapport, avec des indices visuels subtils, ChatGPT o3 peut même deviner l'emplacement géographique exact.


    Étant donné que OpenAI o3 n'est pas seulement un modèle d'IA autonome, mais qu'il utilise également plusieurs outils tels que la recherche sur le web et Python, le système d'IA se comporte davantage comme un agent, et il aide grandement à trouver l'emplacement à partir de photos. Grâce à l'interprète Python, o3 peut zoomer et recadrer des parties d'images pour les analyser avec une plus grande précision.

    Ethan Mollick a supprimé les métadonnées de localisation d'une image d'une voie express anodine et a demandé à ChatGPT o3 de « géoguider ceci ». Chose étonnante, ChatGPT o3 a généré les coordonnées correctes de l'emplacement.

    Dans un autre exemple étonnant, ChatGPT o3 a même identifié l'emplacement d'une bibliothèque en regardant l'image d'une étagère qui semble générique, dans le meilleur des cas.

    Par ailleurs, un autre problème de confidentialité est apparu avec ChatGPT. Lors de l'utilisation du modèle o3 sur ChatGPT, les traces de raisonnement révèlent les noms réels et les données de localisation des utilisateurs. Il s'avère que les métadonnées du compte sont transmises à ChatGPT dans le cadre de l'invite du système, donc un risque potentiel pour la vie privée.

    Et vous ?

    Pensez-vous que ce rapport est crédible ou pertinent ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Le mode vocal avancé avec vision de ChatGPT est enfin disponible : vous pouvez maintenant utiliser le chatbot par le biais de la saisie vocale, d'images et de vidéos, et même partager des écrans

    Niantic annonce un "modèle d'IA géospatiale à grande échelle" formé sur les données des joueurs de Pokémon Go. Impossible de désactiver les données de localisation, Pokemon Go étant basé sur la localisation

    ChatGPT fournit de fausses informations sur les personnes, et OpenAI admet qu'elle n'est pas en mesure de les corriger. Elle ne peut pas dire d'où viennent les données, ni quelles sont les données stockées
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  3. #3
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 256
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 256
    Par défaut Les modèles o3 et o4-mini affichent des taux d'hallucination nettement plus élevés que les modèles précédents
    OpenAI est perplexe parce que ses nouveaux modèles o3 et o4-mini affichent des taux d'hallucination nettement plus élevés que les modèles précédents
    ce qui réduit la précision et la fiabilité de ces modèles

    Le problème de l'hallucination des grands modèles de langage (LLM) reste à ce jour l'un des principaux défis de l'IA générative. Cette limitation compromet la fiabilité des programmes d'IA générative et érode la confiance des utilisateurs. OpenAI et ses rivaux planchent sur le problème depuis l'essor de l'IA générative, sans aucun résultat probant. Pire encore, OpenAI constate une régression de ses modèles. Ses nouveaux modèles o3 et o4 ont des taux d'hallucination nettement plus élevés que les générations précédentes, malgré des performances améliorées dans certaines tâches. OpenAI admet ne pas comprendre pleinement les raisons de cette régression.

    OpenAI a récemment publié ses derniers modèles o3 et o4-mini. Ils sont axés sur le raisonnement et affichent des performances nettement supérieures à celles de leurs prédécesseurs o1 et o3-mini. Ils présentent de nouvelles capacités telles que la « réflexion à partir d'images » et la combinaison d'outils d'IA pour obtenir des résultats plus complexes. Toutefois, les résultats des tests internes d'OpenAI suggèrent que ces modèles sont très peu fiables.

    Un document technique publié par OpenAI révèle que ses modèles o3 et o4-mini hallucinent plus souvent que les précédents modèles axés sur le raisonnement (o1, o1-mini et o3-mini) et plus que ses modèles traditionnels qui ne sont pas dotés de la capacité de raisonnement, tels que GPT-4 et GPT-4o.

    Nom : Capture d'écran 2025-04-22 204818.png
Affichages : 4078
Taille : 117,9 Ko

    Plus inquiétant encore, OpenAI ne sait pas pourquoi cela se produit. Ce phénomène est inhabituel, car, jusqu'à présent, les nouveaux modèles ont tendance à moins halluciner à mesure que la technologie d'IA sous-jacente s'améliore. OpenAI indique que « des recherches supplémentaires sont nécessaires » pour comprendre pourquoi les hallucinations s'aggravent au fur et à mesure que les modèles de raisonnement évoluent. Voici les résultats des tests :

    • o3 hallucine dans 33 % des cas sur le benchmark interne d'OpenAI appelé PersonQA ;
    • o4-mini atteint un taux de 48 %, soit près d'une réponse sur deux incorrecte ;
    • en comparaison, les modèles précédents comme o1 et o3-mini affichaient des taux respectifs de 16 % et 14,8 %.


    Dans le domaine des grands modèles de langage, une hallucination se produit lorsque le modèle invente des informations qui semblent convaincantes, mais qui n'ont rien à voir avec la vérité. Il s'agit d'informations incorrectes, inventées ou trompeuses. Les hallucinations peuvent être utiles dans le cadre d'activités créatives, mais elles nuisent à la crédibilité des assistants d'IA lorsque ces derniers sont utilisés pour des tâches où la précision est primordiale.

    La société à but non lucratif Transluce, spécialisée dans la recherche sur l'IA, a également constaté lors de ses propres tests que le modèle o3 d'OpenAI a une forte tendance à l'hallucination, en particulier lorsqu'il générait du code informatique. Un représentant d'OpenAI a déclaré à TechCrunch que « la société travaille continuellement à l'amélioration de la précision et de la fiabilité [de ses modèles] ». Toutefois, les experts restent sceptiques quant à son succès.

    Les hallucinations rendent les modèles avancés moins utiles que prévu

    Selon OpenAI, les modèles o3 et o4-mini obtiennent de meilleurs résultats dans certains domaines, notamment dans les tâches liées au codage et aux mathématiques. « Toutefois, en raison du fait qu'ils font plus d'affirmations dans l'ensemble, ils sont souvent amenés à faire des affirmations plus précises ainsi que des affirmations plus inexactes/hallucinées », a écrit OpenAI dans son document technique. Transluce a également observé un autre problème.

    D'après Transluce, le modèle o3 justifie ses hallucinations d'une manière déconcertante. « Il justifie les sorties hallucinées lorsqu'il est interrogé par l'utilisateur, affirmant même qu'il utilise un MacBook Pro externe pour effectuer des calculs et qu'il copie les sorties dans ChatGPT », a écrit Transluce dans un billet de blogue. Bien que le modèle o3 ait accès à certains outils, il ne peut pas faire cela. En effet, le modèle a amélioré sa capacité de justification.

    « Notre hypothèse est que le type d'apprentissage par renforcement utilisé pour les modèles de la série o peut amplifier les problèmes qui sont généralement atténués (mais pas complètement effacés) par les pipelines de post-entraînement standard », a déclaré Neil Chowdhury, chercheur chez Transluce et ancien employé d'OpenAI. Les taux d'hallucination de o3 et o4-mini pourraient les rendre moins utiles que prévu, ce qui s'apparente à un échec.

    Kian Katanforoosh, professeur adjoint à l'université de Stanford et PDG de la startup Workera, a déclaré à TechCrunch que son équipe teste déjà le modèle o3 d'OpenAI dans ses flux de travail de codage et qu'elle l'a trouvé un peu plus performant que la concurrence. Cependant, Kian Katanforoosh a ajouté que le modèle o3 a tendance à halluciner les liens de sites Web cassés. Le modèle fournit un lien qui, une fois cliqué, ne fonctionne pas.

    Une approche prometteuse pour améliorer la précision des modèles consiste à les doter de la capacité de recherche sur le Web. Le modèle GPT-4o d'OpenAI doté d'une fonction de recherche sur le Web atteint une précision de 90 % sur SimpleQA, un autre benchmark interne d'OpenAI. Selon certains chercheurs en IA, la capacité de recherche sur le Web pourrait également aider à réduire les taux d'hallucination des modèles axés sur le raisonnement.

    Cela signifie que les utilisateurs des modèles d'IA doivent être prêts à exposer les messages-guides à un fournisseur de recherche tiers. Si l'évolution des modèles axés sur le raisonnement continue effectivement à aggraver les hallucinations, la recherche d'une solution n'en sera que plus urgente.

    Conclusion

    Les observations d'OpenAI avec ses modèles o3 et o4-mini mettent une fois de plus en lumière un problème technique persistant qui affecte la fiabilité des programmes et outils d'IA générative. « La prise en compte des hallucinations dans tous nos modèles est un domaine de recherche en cours, et nous travaillons continuellement à l'amélioration de leur précision et de leur fiabilité », a déclaré Niko Felix, porte-parole d'OpenAI, dans un courriel à Techcrunch.

    Toutefois, bien que des efforts soient en cours pour atténuer ce phénomène, certains chercheurs pensent que les hallucinations demeurent une limitation inhérente aux modèles de langage. En d'autres termes, le problème de l'hallucination des grands modèles de langage pourrait se révéler insoluble.

    Selon ces chercheurs, « les hallucinations sont inévitables en raison de la structure mathématique fondamentale de ces systèmes, rendant leur élimination complète impossible, même avec des améliorations architecturales ou des mécanismes de vérification des faits ». Une étude (intitulée "LLMs Will Always Hallucinate, and We Need to Live With This") publiée l'année dernière affirme que les modèles vont toujours halluciner et qu'il faudra s'en accommoder.

    Sources : document technique d'OpenAI (PDF), rapport d'étude

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous de l'augmentation du taux d'hallucination des modèles o3 et o4-mini ?
    Le taux d'hallucination grimpe à mesure que les modèles axés sur le raisonnement évoluent. Qu'en pensez-vous ?
    Certains chercheurs en IA affirment que les hallucinations ne pourront pas être éliminées entièrement. Qu'en pensez-vous ?
    Les hallucinations remettent en cause la précision et la fiabilité des outils d'IA générative. Que pensez-vous de l'utilité de ces outils d'IA ?

    Voir aussi

    Les outils d'IA de codage inventent des noms de paquets inexistants qui menacent la chaîne d'approvisionnement en logiciels : les attaquants publient des paquets malveillants avec ces noms sur npm ou PyPI

    Google admet ne pas savoir pourquoi son IA apprend des choses inattendues : « nous ne comprenons pas non plus parfaitement le fonctionnement de l'esprit humain »

    Les LLM IA auront toujours des hallucinations, et nous devons nous en accommoder, car les hallucinations découlent de la structure mathématique et logique fondamentale des LLM, selon une étude

Discussions similaires

  1. tuto "developpez" sur les puces avec des images
    Par gomodo dans le forum Mise en page CSS
    Réponses: 5
    Dernier message: 01/03/2009, 14h01
  2. Chat en Flash (détecter les nouveaux messages)
    Par sourivore dans le forum Dynamique
    Réponses: 7
    Dernier message: 10/05/2006, 17h36
  3. [CR XI] Les nouveaux champs d'une table n'apparaissent pas
    Par david_chardonnet dans le forum SAP Crystal Reports
    Réponses: 4
    Dernier message: 03/04/2006, 11h20

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo