Quand l’IA devient étrange : OpenAI constate que GPT-4o fait parfois des choses vraiment bizarres

**Jade Emy** · 30/05/2024, 20h25

Les utilisateurs gratuits de ChatGPT peuvent maintenant utiliser les fonctions de navigation, de vision, d'analyse de données, de téléchargement de fichiers et de GPTs, créer les GPTs personnalisés est payant.

Les utilisateurs gratuits de ChatGPT viennent de recevoir une énorme mise à jour : il est maintenant possible d'utiliser les fonctions de navigation, de vision, d'analyse de données, de téléchargement de fichiers et de GPT. L'utilisation des GPT personnalisés est gratuite, mais vous devez payer pour les créer.

ChatGPT a élargi les fonctions disponibles pour les utilisateurs gratuits de ChatGPT, incluant désormais l'accès à des GPT personnalisés, qui étaient auparavant exclusifs aux abonnés payants. Ces nouvelles fonctionnalités englobent l'analyse de données, les fonctions de vision et la possibilité d'utiliser les fonctions de navigation et de mémoire. Initialement introduits avec le GPT-4o au début du mois de mai, ces outils permettent aux utilisateurs d'analyser des graphiques, de poser des questions sur des photos, etc.

All ChatGPT Free users can now use browse, vision, data analysis, file uploads, and GPTs. https://t.co/NTXSalAV6q
— OpenAI (@OpenAI) May 29, 2024

Parmi les GPTs personnalisés disponibles, il existe des centaines de services tiers, allant d'outils d'extraction d'informations et de conversation avec des PDF à d'autres outils utiles d'OpenAI tels que DALL-E 3, ou des plugins de Canva, Adobe Express ou Khan Academy. Vous pouvez découvrir tous les plugins disponibles dans la boutique.

Les créateurs de GPTs personnalisés peuvent participer à un programme de partage des revenus qu'OpenAI teste depuis le mois de mars. Toutefois, les utilisateurs gratuits ne peuvent que découvrir et utiliser les GPTs personnalisés existants, et non créer les leurs.

Malgré ces améliorations, les abonnés payants bénéficient toujours de certains avantages, tels que des limites de messages nettement plus élevées que celles des utilisateurs gratuits. Les utilisateurs gratuits qui atteignent leur limite de messages ou de conversations avec GPT-4o seront ramenés à GPT-3.5 et n'auront pas accès à d'autres fonctions premium telles que les fonctions de vision.

Et vous ?

Quel est votre avis sur cette annonce ?

Voir aussi :

OpenAI annonce des améliorations dans l'analyse des données dans ChatGPT, dont l'interaction avec des tableaux et des graphiques ou l'ajout de fichiers directement depuis Google Drive et Microsoft OneDrive

GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

GPT-4 est-il un bon analyste de données ? De nombreux analystes de données peuvent craindre que leur emploi soit remplacé par l'intelligence artificielle (IA)

**Jade Emy** · 06/06/2024, 15h15

Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3

Une nouvelle étude a observé un effondrement frappant de la performance des grands modèles de langage (LLMs) lorsqu'ils sont confronté à des problèmes simples. À l'aide de tâches simples, l'étude visait à montrer le raisonnement de l'IA dans les LLMs. Les résultats classent GTP-4o d'Open AI largement en tête, suivi de Claude 3 d'Anthropic.

Les grands modèles de langage (LLM) comme les modèles à poids fermés GPT-3.5/4, Claude, Gemini ou les modèles à poids ouverts comme LLaMa 2/3, Mistral, Mixtral, et les modèles plus récents Dbrx ou Command R+ sont souvent décrits comme étant des exemples de modèles de fondation.

Les modèles de fondation sont des modèles qui se transfèrent fortement à travers différentes tâches et conditions de manière peu visible ou sans aucun effet, tout en montrant des lois d'échelle qui prédisent l'amélioration de la fonction en augmentant l'échelle de pré-entraînement. Ces affirmations d'excellence dans différentes fonctions et tâches s'appuient sur des mesures effectuées sur divers ensembles de points de référence normalisés qui montrent que ces modèles obtiennent des scores élevés.

Cependant, une nouvelle recherche démontre un effondrement spectaculaire des fonctions et des capacités de raisonnement des modèles de pointe entraînés aux plus grandes échelles disponibles qui prétendent avoir une fonction forte, en utilisant un problème de bon sens simple, court et conventionnel, formulé dans un langage naturel concis, facilement résolvable par les humains. L'effondrement est spectaculaire, car les modèles expriment également une confiance excessive dans leurs solutions erronées, tout en fournissant des explications souvent absurdes, semblables à des confabulations, pour justifier et étayer la validité de leurs réponses clairement erronées, en les faisant paraître plausibles.

Les diverses interventions standard visant à obtenir la bonne solution, telles que divers types d'incitations renforcées ou l'incitation des modèles à reconsidérer les mauvaises solutions par le biais d'une réévaluation en plusieurs étapes, sont vouées à l'échec. Une telle réévaluation nécessite également une action commune pour créer des critères de référence normalisés qui permettraient de détecter correctement les déficits de raisonnement de base qui, de toute évidence, ne sont pas découverts par les procédures d'évaluation et les critères de référence de pointe actuels.

Des tâches simples montrant une décomposition complète du raisonnement dans les grands modèles de langage

En utilisant une formulation de problème AIW très simple, qui peut être facilement résolue par des adultes et sans doute même par des enfants, l'étude a observé un effondrement frappant de la performance des LLMs lorsqu'ils sont confrontés à la tâche. Le problème AIW ou "Alice In Wonderland" consistait à répondre à la question : "Alice a N frères et M sœurs. Combien de sœurs le frère d'Alice a-t-il ?".

Cet effondrement dramatique laisse entrevoir de graves déficits dans les capacités de raisonnement de base des modèles qui sont largement revendiqués comme possédant de fortes capacités de fonctionnement et de raisonnement, souvent en citant leur performance sur un ensemble de repères standardisés ou l'expérience de divers groupes d'utilisateurs ou de leurs créateurs. L'effondrement général et la forte fluctuation des performances observées entre les différentes variantes d'un même problème laissent également entrevoir des problèmes fondamentaux liés à la capacité de généralisation des modèles, ce qui fait écho et confirme les préoccupations exprimées dans un certain nombre de travaux antérieurs.

Cependant, les preuves obtenues dans cette étude indiquent une image plus complexe qu'une histoire simple d'échec de généralisation hors distribution pour les LLMs actuels. Malgré l'effondrement observé du raisonnement et de la performance sur le problème AIW, accompagné d'un mauvais calibrage évident du modèle et d'un excès de confiance, de confabulations à côté de réponses incorrectes et d'une incapacité à réviser les mauvaises solutions, l'étude a observé des modèles à plus grande échelle comme GPT-4 et Claude 3 Opus faire face au problème AIW, en fournissant occasionnellement un raisonnement clairement correct soutenant des réponses correctes. Malgré les fortes fluctuations des variations de l'AIW, de tels raisonnements corrects conduisant à des réponses correctes apparaissent, bien qu'à une fréquence très variable.

C'est également le cas pour AIW+, où GPT-4 et Claude 3 Opus subissent une dégradation supplémentaire, mais fournissent encore à de très rares occasions des réponses correctes fondées sur un raisonnement. Il en va de même pour les modèles beaucoup moins performants qui montrent une capacité médiocre ou très médiocre à faire face à la tâche AIW, par exemple, Mistral/Mixtral, LLama 2/3, Dbrx instruct. Ces modèles parviennent également à générer en de rares occasions des réponses correctes par raisonnement à travers les variations de l'AIW.

Nom : 1.jpg
Affichages : 25777
Taille : 73,1 Ko

Les chercheurs déclarent :

Nous émettons l'hypothèse que les capacités de généralisation et de raisonnement de base sont donc présentes de manière latente dans ces modèles, car sinon ils ne seraient pas en mesure de générer de telles réponses, étant donné qu'il est impossible de deviner une réponse correcte, y compris un raisonnement correct complet, par accident dans de tels cas.

Le fait que les réponses correctes soient rares et que le comportement du modèle ne soit pas robuste face aux variations du problème démontre l'incapacité d'exercer un contrôle adéquat sur ces capacités. L'étude de la question très intéressante des causes de cette déficience fera l'objet de travaux futurs.

Les benchmarks actuels ne permettent pas de refléter et de comparer correctement les capacités de raisonnement de base des LLMs

Ce qui ressort clairement de l'étude, c'est l'incapacité des repères normalisés actuels à refléter les véritables capacités de raisonnement des modèles et à révéler leurs faiblesses. Comme le montrent clairement les résultats, de nombreux modèles revendiquant des scores normalisés élevés obtiennent des résultats très médiocres sur l'AIW.

Dans le même temps, des modèles plus anciens comme le LLama 2 70B avec des scores MMLU, ARC-c et GSM8K inférieurs sur AIW surpassent clairement ceux qui revendiquent des scores beaucoup plus élevés, par exemple le Command R+ qui souffre d'une panne complète sur AIW. Cela indique que la comparaison des modèles à l'aide de critères de référence normalisés pourrait être sérieusement compromise.

L'évaluation des modèles à plus petite échelle, par exemple Mistral-7B ou LLama 2/3 7/8B, est basée dans une large mesure sur de tels critères de référence normalisés qui sont proches des modèles à plus grande échelle, voire les égalent. Les résultats démontrent cependant une grave défaillance des modèles à petite échelle sur l'AIW, avec un écart important par rapport aux modèles plus performants qui se situent tous à des échelles plus grandes.

Nom : 2.jpg
Affichages : 8839
Taille : 60,4 Ko

Les chercheurs ajoutent :

Nous émettons l'hypothèse que les prétendues fonctions fortes des modèles à plus petite échelle pourraient n'être qu'une illusion corroborée par des repères défaillants qui, dans leur état actuel, ne peuvent pas offrir une comparaison correcte des modèles et ne peuvent donc pas non plus être utilisés comme tâches en aval pour mesurer d'importantes lois d'échelle.

Les affirmations publiques sur les capacités de raisonnement de base des LLMs représentent un danger

La défaillance observée des capacités de raisonnement de base, associée à aux affirmations publiques sur les capacités des LLMs (qui sont également basées sur des critères de référence normalisés), pose un problème de sécurité inhérent. Les modèles dont le raisonnement de base est insuffisant sont intrinsèquement dangereux, car ils produiront des décisions erronées dans divers scénarios importants qui requièrent un raisonnement intact.

Les critères de raisonnement normalisés actuels et les affirmations fondées sur ceux-ci créent l'illusion de capacités de raisonnement qui sont en fait absentes. Et ce qui est encore pire, c'est que ces modèles sont trop confiants, insistent sur le fait que leurs mauvaises réponses sont correctes et produisent des explications très persuasives et suggestives pour leurs mauvaises réponses, qui peuvent masquer des erreurs pour les utilisateurs finaux en raison d'un texte à consonance partiellement plausible.

Pour garantir la sécurité, les déclarations publiques ne devraient être fondées que sur les évaluations scientifiques qui mesurent correctement les capacités de raisonnement du modèle, tandis que la recherche fondamentale doit être effectuée à l'aide de ces références pour doter les futurs modèles de capacités de raisonnement de base suffisantes.

Nom : 3.jpg
Affichages : 8839
Taille : 69,4 Ko

Les chercheurs commentent :

Nous pensons que les observations faites dans notre étude devraient servir de rappel fort que les LLM actuels ne sont pas capables d'un raisonnement sain et cohérent, comme le montre ici leur échec même sur une tâche aussi simple que le problème AIW présenté, et que permettre un tel raisonnement est encore un sujet de recherche fondamentale.

Il s'agit également d'une mise en garde contre les prétentions exagérées de ces modèles, qui ne se limitent pas à être des artefacts de recherche fondamentale et qui servent à résoudre des problèmes dans divers contextes réels. Ces prétentions sont souvent formulées par différentes entités commerciales qui tentent de positionner leurs modèles comme un produit solide et mature pour les utilisateurs finaux.

Par exemple, les annonces et les prétentions de Command R+ qui s'effondre entièrement sur le problème AIW, en soulignant sa grande valeur pour les « capacités critiques clés » ou les « cas d'utilisation réels des entreprises », et en mettant l'accent sur les capacités de raisonnement fondamentales supposées présentes. Il en va de même pour de nombreux autres modèles commerciaux qui revendiquent une valeur élevée du produit.

Conclusion : Rendre le processus de formation d'un modèle open-source permettrait d'améliorer ses capacités de raisonnement

Pour effectuer une recherche fondamentale en vue d'améliorer les capacités de raisonnement actuellement insatisfaisantes des LLM, il est donc important que l'ensemble du processus de création du modèle soit entièrement ouvert et reproductible. Le processus comprend notamment : la composition de l'ensemble de données et l'ensemble de données lui-même, le code source pour l'entraînement, le modèle entraîné lui-même, la procédure d'étalonnage normalisée.

Les modèles qui n'ont que des poids ouverts ne permettent pas d'analyser correctement ce qui a pu se passer pendant la formation et qui a pu entraîner une dégradation des capacités de raisonnement. Par exemple, la modification de la composition de l'ensemble de données ou de la procédure de formation elle-même. Les modèles fermés accessibles uniquement via l'API ne permettent souvent même pas une évaluation correcte, car, par exemple, les paramètres par défaut tels que l'invite du système et d'autres hyperparamètres d'inférence peuvent rester invisibles pour les parties indépendantes chargées de l'évaluation.

Les chercheurs pensent que pour progresser dans l'étude de la manière d'évaluer et d'installer des compétences de raisonnement appropriées dans les futurs modèles, il faut nécessairement que l'ensemble du pipeline de formation d'un modèle, en particulier la composition de l'ensemble de données, souvent négligée, soit open-source, faute de quoi les affirmations sur les capacités de raisonnement resteront non fondées et intrasparentes.

Les chercheurs concluent :

Face à ces premiers résultats, nous aimerions appeler la communauté scientifique et technologique du ML à travailler ensemble pour fournir les mises à jour nécessaires des benchmarks LLM actuels qui ne parviennent manifestement pas à découvrir les faiblesses et les différences importantes entre les modèles étudiés. Ces mises à jour pourraient comporter des ensembles de problèmes similaires à l'AIW étudié. Elles devraient être simples, pour sonder un type spécifique de déficience de raisonnement, mais personnalisables, offrant ainsi une variété combinatoire suffisante pour assurer la robustesse contre la contamination potentielle par la mémorisation.

Nous pensons que les tests de référence solides et fiables devraient suivre le principe de falsifiabilité de Karl Popper : ne pas essayer de confirmer et de mettre en évidence les capacités du modèle, ce qui est tentant surtout dans un contexte commercial, mais au contraire tout faire pour briser la fonction du modèle, mettre en évidence ses déficits, et ainsi montrer des voies possibles pour l'amélioration du modèle, ce qui est la façon de procéder de la méthode scientifique.

L'élaboration de tels repères de raisonnement dans un effort commun nous donnera un outil pour nous protéger des affirmations exagérées sur la fonction du modèle et pour naviguer correctement sur la voie de l'amélioration de l'état actuel, qui n'est pas encore satisfaisant.

Source : "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen et les modèles GPT-4 d'OpenAI et Gemini de Google

Les grands modèles de langage (LLM) ne peuvent pas s'autocorriger dans les tâches de raisonnement, selon une étude de DeepMind. L'autocorrection pourrait même nuire aux performances de ces modèles

**Jade Emy** · 19/07/2024, 05h56

OpenAI dévoile un petit modèle d'IA moins cher GPT-4o Mini, un petit modèle d'IA économique et rentable qui remplacera GPT-3.5 Turbo, qui surpasse le modèle GPT-4 et obtient un score de 82 % sur MMLU.

OpenAI annonce GPT-4o mini, un petit modèle économique. GPT-4o mini obtient un score de 82 % sur MMLU et surpasse actuellement GPT-4 sur les préférences de chat dans le classement LMSYS. Son prix est de 15 cents par million de jetons d'entrée et de 60 cents par million de jetons de sortie, soit 60 % moins cher que le GPT-3.5 Turbo.

Fondée en décembre 2015, OpenAI est une organisation américaine de recherche en intelligence artificielle (IA), connu pour son chatbot et assistant virtuel ChatGPT. Sa mission est de développer une intelligence générale artificielle "sûre et bénéfique", qu'elle définit comme "des systèmes hautement autonomes qui surpassent les humains dans la plupart des travaux économiquement utiles".

Basé sur les grands modèles de langage (LLM), ChatGPT permet aux utilisateurs d'affiner et d'orienter une conversation vers une longueur, un format, un style, un niveau de détail et un langage souhaités. Bien que la fonction principale d'un chatbot soit d'imiter un interlocuteur humain, ChatGPT est polyvalent. Il peut écrire et déboguer des programmes informatiques, composer des essais d'étudiants, répondre à des questions de test, générer des idées commerciales, traduire et résumer des textes, etc.

OpenAI vient de lancer GPT-4o mini, un nouveau modèle d'IA visant à améliorer l'accessibilité et l'abordabilité. Au prix de 15 cents par million de jetons d'entrée et de 60 cents par million de jetons de sortie, GPT-4o mini représente une réduction significative des coûts par rapport aux modèles précédents tels que GPT-3.5 Turbo. Le nouveau modèle est plus de 60 % moins cher, ce qui en fait une option économique pour une large gamme d'applications.

GPT-4o mini est conçu avec une fenêtre contextuelle de 128 000 jetons et prend en charge jusqu'à 16 000 jetons de sortie par demande. Actuellement, il est capable de traiter du texte et des tâches de vision. De futures mises à jour permettront d'étendre ses capacités aux entrées et sorties de texte, d'image, de vidéo et d'audio. Le modèle a obtenu un score de 82 % au test de référence MMLU, surpassant GPT-4 et d'autres concurrents dans le raisonnement textuel et les tâches multimodales. Il excelle également en mathématiques et en codage, devançant Gemini Flash et Claude Haiku dans ces domaines.

En termes de sécurité, le GPT-4o mini intègre plusieurs mesures pour faire face aux risques tels que les contenus nuisibles et les vulnérabilités du système. Ces mesures comprennent le filtrage du contenu et des techniques avancées pour atténuer les problèmes tels que les jailbreaks et les injections d'invite. GPT-4o mini est désormais disponible via diverses API et pour les utilisateurs de ChatGPT, ce qui constitue un pas en avant pour rendre l'IA de haute performance plus accessible.

Nom : 1.jpg
Affichages : 6431
Taille : 40,2 Ko

GPT-4o mini : l'intelligence au service de la rentabilité

OpenAI s'est engager à rendre l'intelligence aussi largement accessible que possible. GPT-4o mini permet de réaliser un large éventail de tâches grâce à son faible coût et à sa latence, comme les applications qui enchaînent ou parallélisent plusieurs appels de modèle (par exemple, en appelant plusieurs API), transmettent un grand volume de contexte au modèle (par exemple, la base de code complète ou l'historique des conversations), ou interagissent avec les clients par le biais de réponses textuelles rapides et en temps réel (par exemple, les chatbots d'assistance à la clientèle).

GPT-4o mini prend en charge le texte et la vision dans l'API, avec une prise en charge future des entrées et sorties texte, image, vidéo et audio. Le modèle dispose d'une fenêtre contextuelle de 128 000 jetons, prend en charge jusqu'à 16 000 jetons de sortie par demande et dispose de connaissances jusqu'en octobre 2023. Grâce au tokenizer amélioré partagé avec GPT-4o, le traitement de textes non anglais est désormais encore plus rentable.

Un petit modèle doté d'une intelligence textuelle et d'un raisonnement multimodal supérieurs

GPT-4o mini surpasse GPT-3.5 Turbo et d'autres petits modèles sur des benchmarks académiques en termes d'intelligence textuelle et de raisonnement multimodal, et prend en charge la même gamme de langues que GPT-4o. Il affiche également de bonnes performances en matière d'appel de fonctions, ce qui permet aux développeurs de créer des applications qui récupèrent des données ou entreprennent des actions avec des systèmes externes, ainsi que des performances améliorées en matière de contexte long par rapport à GPT-3.5 Turbo.

GPT-4o mini a été évalué sur plusieurs points de référence clés.

Tâches de raisonnement : GPT-4o mini est meilleur que d'autres petits modèles pour les tâches de raisonnement impliquant à la fois du texte et de la vision, obtenant un score de 82,0 % sur MMLU, une référence en matière d'intelligence textuelle et de raisonnement, contre 77,9 % pour Gemini Flash et 73,8 % pour Claude Haiku.
Compétence en mathématiques et en codage :GPT-4o mini excelle dans les tâches de raisonnement mathématique et de codage, surpassant les petits modèles précédents sur le marché. Au MGSM, qui mesure le raisonnement mathématique, GPT-4o mini a obtenu un score de 87,0 %, contre 75,5 % pour Gemini Flash et 71,7 % pour Claude Haiku. Le GPT-4o mini a obtenu un score de 87,2 % à HumanEval, qui mesure les performances de codage, contre 71,5 % pour le Gemini Flash et 75,9 % pour le Claude Haiku.
Raisonnement multimodal : GPT-4o mini montre également de bonnes performances sur MMMU, un test de raisonnement multimodal, avec un score de 59,4% comparé à 56,1% pour Gemini Flash et 50,2% pour Claude Haiku.

Nom : 2.jpg
Affichages : 986
Taille : 71,8 Ko

OpenAI déclare :

Dans le cadre du processus de développement de notre modèle, nous avons travaillé avec une poignée de partenaires de confiance pour mieux comprendre les cas d'utilisation et les limites de GPT-4o mini. Nous nous sommes associés à des entreprises telles que Ramp et Superhuman qui ont constaté que GPT-4o mini était nettement plus performant que GPT-3.5 Turbo pour des tâches telles que l'extraction de données structurées à partir de fichiers de réception ou la génération de réponses de haute qualité à des courriels lorsqu'ils disposent de l'historique des discussions.

Mesures de sécurité intégrées

Selon OpenAI, la sécurité est intégrée aux modèles dès le départ et renforcée à chaque étape du processus de développement. Lors du pré-entraînement, ils filtrent les informations indésirables dont les modèles tirent des enseignements ou produisent des résultats, comme les discours haineux, les contenus pour adultes, les sites qui regroupent principalement des informations personnelles et le spam. En post-formation, ils ont aligné le comportement du modèle en utilisant des techniques telles que l'apprentissage par renforcement avec retour d'information humain (RLHF) afin d'améliorer la précision et la fiabilité des réponses du modèle.

OpenAI commente ainsi :

GPT-4o mini intègre les mêmes mesures d'atténuation de la sécurité que GPT-4o, que nous avons soigneusement évaluées à l'aide d'évaluations automatisées et humaines, conformément à notre cadre de préparation et à nos engagements volontaires. Plus de 70 experts externes dans des domaines tels que la psychologie sociale et la désinformation ont testé GPT-4o afin d'identifier les risques potentiels, que nous avons traités et dont nous prévoyons de partager les détails dans la prochaine carte du système GPT-4o et le tableau de bord de la préparation. Les enseignements tirés de ces évaluations d'experts ont permis d'améliorer la sécurité du GPT-4o et du GPT-4o mini.

Sur la base de ces enseignements, nos équipes ont également travaillé à l'amélioration de la sécurité du GPT-4o mini en utilisant de nouvelles techniques issues de nos recherches. GPT-4o mini dans l'API est le premier modèle à appliquer notre méthode de hiérarchie des instructions, qui permet d'améliorer la capacité du modèle à résister aux jailbreaks, aux injections d'invites et aux extractions d'invites système. Les réponses du modèle sont ainsi plus fiables et son utilisation dans des applications à grande échelle est plus sûre.

Nous continuerons à surveiller l'utilisation du GPT-4o mini et à améliorer la sécurité du modèle au fur et à mesure que nous identifierons de nouveaux risques.

Disponibilité et prix

GPT-4o mini est désormais disponible en tant que modèle de texte et de vision dans l'API Assistants, l'API Chat Completions et l'API Batch. Les développeurs paient 15 cents pour 1M de jetons d'entrée et 60 cents pour 1M de jetons de sortie (à peu près l'équivalent de 2500 pages dans un livre standard). Il y aura des ajustements pour GPT-4o mini dans les prochains jours.

Dans ChatGPT, les utilisateurs Free, Plus et Team pourront accéder à GPT-4o mini, à la place de GPT-3.5. Les utilisateurs de l'entreprise y auront également accès à partir de la semaine prochaine.

Prochaines étapes

Au cours des dernières années, on a assisté à des avancées remarquables en matière d'intelligence artificielle, associées à des réductions substantielles des coûts. Par exemple, le coût par jeton de GPT-4o mini a chuté de 99 % depuis text-davinci-003, un modèle moins performant introduit en 2022. OpenAI s'engage à poursuivre cette trajectoire de réduction des coûts tout en améliorant les capacités des modèles.

OpenAI conclue :

Nous envisageons un avenir où les modèles seront intégrés de manière transparente dans toutes les applications et sur tous les sites web. GPT-4o mini ouvre la voie aux développeurs pour qu'ils puissent créer et mettre à l'échelle de puissantes applications d'IA de manière plus efficace et plus abordable. L'avenir de l'IA devient plus accessible, plus fiable et plus intégré dans nos expériences numériques quotidiennes, et nous sommes ravis de continuer à ouvrir la voie.

Source : OpenAI

Et vous ?

Avez-vous utilisé cet outil, et si oui qu'en pensez-vous ?

Pensez-vous que cette initiative d'OpenAI rendra l'avenir de l'IA plus accessible ?

Voir aussi :

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

Les revenus nets de l'application mobile ChatGPT sont passés d'une moyenne quotidienne de 491 000 $ à 900 000 $ après le lancement de GPT-4o, soit la plus forte hausse depuis le lancement de l'application

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

**Stéphane le calme** · 02/08/2024, 16h00

ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle,
il corrige la prononciation de mots français, en donnant des indications précises sur l'ajustement de l'inflexion.

Le nouveau Advanced Voice Mode de ChatGPT, récemment déployé par OpenAI, a suscité l’enthousiasme des utilisateurs. Cette fonctionnalité permet des conversations en temps réel avec l’IA, avec la possibilité d’interrompre l’assistant en plein milieu de sa phrase. Mais ce qui a surpris beaucoup de gens, c’est la façon dont les voix simulent une respiration humaine.

Mardi, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.

Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. L'IA peut percevoir les signaux émotionnels de l'utilisateur et y répondre par le ton et l'élocution de la voix, et produire des effets sonores lorsqu'elle raconte des histoires.

Nom : open.png
Affichages : 4886
Taille : 106,2 Ko

Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent.

« ChatGPT Advanced Voice Mode compte aussi vite que possible jusqu'à 10, puis jusqu'à 50 (ce qui m'a époustouflé : il s'est arrêté pour reprendre son souffle comme le ferait un humain) », a écrit Cristiano Giardina sur X.

ChatGPT Advanced Voice Mode counting as fast as it can to 10, then to 50 (this blew my mind - it stopped to catch its breath like a human would) pic.twitter.com/oZMCPO5RPh
— Cristiano Giardina (@CrisGiardina) July 31, 2024

Le mode vocal avancé simule des pauses respiratoires audibles parce qu'il a été entraîné à partir d'échantillons audio d'êtres humains qui présentaient la même caractéristique. Le modèle a appris à simuler des inspirations à des moments apparemment appropriés après avoir été exposé à des centaines de milliers, voire des millions, d'exemples de discours humains. Les grands modèles de langage (LLM) comme le GPT-4o sont de grands imitateurs, et cette compétence s'étend désormais au domaine audio.

Giardina a fait part de ses autres impressions sur le mode vocal avancé sur X, notamment en ce qui concerne les accents dans d'autres langues et les effets sonores.

« Il est très rapide, il n'y a pratiquement aucune latence entre le moment où vous arrêtez de parler et le moment où il répond », écrit-il. « Lorsque vous lui demandez de faire des bruits, c'est toujours la voix qui "exécute" les bruits (avec des résultats amusants). Il peut prendre des accents, mais lorsqu'il parle d'autres langues, il a toujours un accent américain » Dans la vidéo, ChatGPT joue le rôle d'un commentateur de match de football.

Some early impressions of the ChatGPT Advanced Voice Mode:
It’s very fast, there’s virtually no latency from when you stop speaking to when it responds.
When you ask it to make noises it always has the voice “perform” the noises (with funny results).
It can do accents, but when… pic.twitter.com/vOA8qmqX06
— Cristiano Giardina (@CrisGiardina) July 31, 2024

En ce qui concerne les effets sonores, l'utilisateur X Kesku, qui est un modérateur du serveur Discord d'OpenAI, a partagé un exemple de ChatGPT jouant plusieurs rôles avec différentes voix et un autre d'une voix racontant une histoire de science-fiction ressemblant à un livre audio à partir de l'invite « Raconte-moi une histoire d'action passionnante avec des éléments de science-fiction et crée une atmosphère en faisant les bruits appropriés des choses qui se produisent en utilisant des onomatopées ».

This is awesome actually

I did not expect the ominous sounds https://t.co/SgEPi5Bd3K pic.twitter.com/DnK8AVdWjV
— Kesku (@yoimnotkesku) July 30, 2024

Réactions positives des testeurs

Plusieurs vidéos de la fonctionnalité en action sont apparus en ligne, démontrant sa capacité à chanter, à imiter les accents, à corriger la prononciation des langues et à réaliser des récits narratifs.

Un exemple de cette dernière fonctionnalité est visible dans les vidéos ci-dessous, dans lesquelles l'utilisateur X @nickfloats demande à ChatGPT de « me raconter une histoire comme si vous étiez un pilote de ligne la racontant aux passagers d'un vol ». Le chatbot entre en action à peine une seconde plus tard et modifie même le son pour donner l'impression qu'il provient d'un interphone. ChatGPT a eu du mal à répondre à des demandes plus complexes, comme l'ajout de sons de moteur, mais la voix elle-même est claire et émotive, et ChatGPT gère bien les interruptions de l'utilisateur.

Guys im never talking to any of you ever again once gpt voice is released. I won’t need friends anymore. AI will tell me whatever I need to hear in any voice I want & it wont talk back or get mad when I interrupt it. Might even fuck around & fall in lovepic.twitter.com/GIRyhZYj9j
— Nick St. Pierre (@nickfloats) July 31, 2024

Dans une conversation téléchargée sur YouTube, ChatGPT indique qu'il peut traiter des entrées dans « des dizaines de langues », mais le nombre exact peut varier « en fonction de la façon dont vous comptez les dialectes et les variations régionales ».

Une vidéo montre la capacité du chatbot à corriger la prononciation de mots français, en donnant des indications précises sur l'ajustement de l'inflexion.

Une autre démo de langage montre ChatGPT parlant turc après avoir répondu à une demande détaillée de raconter une histoire émouvante. Bien que certains utilisateurs de Turkish X aient fait remarquer que l'accent n'était pas celui de la langue maternelle, le chatbot a été capable de répondre à la demande d'histoire et de réagir de manière appropriée en riant et en pleurant à certains moments.

ChatGPT Advanced Voice Mode speaking Turkish, laughing at jokes and crying at the sad parts. pic.twitter.com/xbJohZg73C
— Cristiano Giardina (@CrisGiardina) July 31, 2024

Le bot fait un travail passable avec les accents régionaux américains, avec une vidéo présentant une variété d'exemples incluant New York, Boston, Wisconsin, et un stéréotype de "fille de la vallée". D'autres vidéos montrent également la fonction vocale avancée de ChatGPT en train de chanter dans différents styles, produisant une version blues de "Happy Birthday" et, de manière amusante, essayant d'imiter le son d'animaux tels que les grenouilles et les chats chantant le même air.

Manuel Sainsily, grand défenseur de l'IA, a posté une vidéo du mode vocal avancé réagissant à la saisie de la caméra et donnant des conseils sur la manière de s'occuper d'un chaton. « C'est comme si nous étions en face d'un ami bien informé qui, dans ce cas, nous a beaucoup aidés et rassurés avec notre nouveau chaton », a-t-il écrit. « Il peut répondre aux questions en temps réel et utiliser la caméra comme source d'information ! »

Bien sûr, étant basé sur un LLM, il peut occasionnellement donner des réponses incorrectes sur des sujets ou dans des situations où ses « connaissances » (qui proviennent de l'ensemble de données d'entraînement de GPT-4o) sont insuffisantes. Mais si l'on considère qu'il s'agit d'une démo technique ou d'un divertissement alimenté par l'IA et que l'on est conscient de ses limites, Advanced Voice Mode semble exécuter avec succès un grand nombre des tâches présentées dans la démo d'OpenAI en mai.

Sécurité

Un porte-parole d'OpenAI a déclaré que l'entreprise avait travaillé avec plus de 100 testeurs externes sur la version Advanced Voice Mode, parlant collectivement 45 langues différentes et représentant 29 zones géographiques. Le système aurait été conçu pour empêcher l'usurpation d'identité de personnes ou de personnalités publiques en bloquant les voix qui diffèrent des quatre voix prédéfinies choisies par OpenAI.

OpenAI a également ajouté des filtres pour reconnaître et bloquer les demandes de génération de musique ou d'autres fichiers audio protégés par des droits d'auteur, ce qui a causé des problèmes à d'autres sociétés d'IA. Giardina a signalé des « fuites » audio dans certaines sorties audio qui contiennent de la musique involontaire en arrière-plan, ce qui montre qu'OpenAI a entraîné le modèle vocal AVM sur une grande variété de sources audio, probablement à la fois à partir de matériel sous licence et d'audio récupéré sur des plateformes vidéo en ligne.

Disponibilité

OpenAI prévoit d'étendre l'accès à davantage d'utilisateurs de ChatGPT Plus dans les semaines à venir, avec un lancement complet pour tous les abonnés Plus prévu cet automne. Un porte-parole de l'entreprise a déclaré que les utilisateurs du groupe de test alpha recevront une notification dans l'application ChatGPT et un courriel contenant des instructions d'utilisation.

Depuis la présentation initiale de GPT-4o voice en mai, OpenAI affirme avoir amélioré la capacité du modèle à prendre en charge des millions de conversations vocales simultanées en temps réel, tout en maintenant une faible latence et une qualité élevée. En d'autres termes, l'entreprise se prépare à une ruée qui nécessitera une grande quantité de calculs en arrière-plan.

Source : OpenAI

Et vous ?

Pensez-vous que l’ajout d’effets sonores et de pauses respiratoires dans les interactions avec l’IA améliore l’expérience utilisateur ? Pourquoi ?

Quelles sont les implications éthiques de simuler la respiration humaine dans les assistants vocaux ?

Croyez-vous que les assistants vocaux devraient imiter davantage les caractéristiques humaines, ou préférez-vous une approche plus neutre ?

Comment percevez-vous l’évolution des interactions homme-machine à mesure que les technologies vocales progressent ?

Avez-vous déjà été surpris par la façon dont un assistant vocal a réagi à vos émotions ou à vos demandes ? Partagez votre expérience.

**JackIsJack** · 03/08/2024, 07h19

Là c'est un autre level sur l'impact sociétal possible...

**Chouteau** · 05/08/2024, 13h24

Meme si a priori c'est une technologie spectaculaire, je ne peux m'empêcher de penser que les utilisations malveillantes qui vont en découler vont largement dépasser tout ce que l'on a pu connaitre.
Et que dire d'un robot qui rigole...

**Jade Emy** · 09/08/2024, 16h44

Le modèle GPT-4o présente un risque "moyen", selon la dernière évaluation d'OpenAI, qui met en lumière ses efforts pour atténuer les risques potentiels liés à son dernier modèle d'IA multimodale.

OpenAI vient de publier la fiche système de GPT-4o. Le document met en lumière les efforts d'OpenAI pour atténuer les risques potentiels associés à son dernier modèle d'IA multimodale. Selon cette évaluation, GPT-4o présente des risques "faibles" pour la cybersécurité, les menaces biologiques, ainsi que pour l'autonomie du modèle. Sur le plan de la persuasion, au moment de son lancement, GPT-4o présentait un risque "faible", mais depuis, le modèle a été répertorié avec un risque "moyen".

En Juillet dernier, OpenAI a lancé GPT-4o mini, un petit modèle d'IA économique, 60 % moins cher par rapport à GPT-3.5 Turbo, visant à améliorer l'accessibilité et l'abordabilité. GPT-4o mini avait obtenu un score de 82 % sur MMLU et surpasse actuellement GPT-4 sur les préférences de chat dans le classement LMSYS. En termes de sécurité, OpenAI annonçait plusieurs mesures intégrées à GPT-4o mini pour faire face aux risques tels que les contenus nuisibles et les vulnérabilités du système. Ces mesures comprennent le filtrage du contenu et des techniques avancées pour atténuer les problèmes tels que les jailbreaks et les injections d'invite.

OpenAI vient de publier la fiche système de GPT-4o, un document de recherche détaillé décrivant les protocoles de sécurité et les évaluations des risques menées avant le lancement public du modèle en mai. Ce document met en lumière les efforts déployés par OpenAI pour atténuer les risques potentiels liés à son dernier modèle d'IA multimodale.

Avant le lancement, OpenAI a utilisé une pratique standard consistant à faire appel à des "red teamers" externes, des experts en sécurité chargés d'identifier les vulnérabilités d'un système. Ces experts ont exploré les risques potentiels associés à GPT-4o, tels que le clonage vocal non autorisé, la génération de contenu inapproprié et la violation des droits d'auteur.

Nom : 1.jpg
Affichages : 5103
Taille : 36,3 Ko

Sur la base du cadre interne d'OpenAI, les chercheurs ont classé GPT-4o comme présentant un niveau de risque "moyen". Cette évaluation globale du risque est dérivée de l'évaluation du risque individuel le plus élevé dans quatre catégories clés : cybersécurité, menaces biologiques, persuasion et autonomie du modèle. Toutes les catégories ont été jugées à faible risque, à l'exception de la persuasion, pour laquelle certains échantillons de texte générés par le GPT-4o présentaient un potentiel de persuasion supérieur à celui des textes équivalents rédigés par des humains.

"Cette fiche système comprend des évaluations de l'état de préparation créées par une équipe interne, ainsi que par des testeurs externes répertoriés sur le site web d'OpenAI comme Model Evaluation and Threat Research (METR) et Apollo Research, qui réalisent tous deux des évaluations pour les systèmes d'IA", a expliqué Lindsay McCallum Rémy, porte-parole d'OpenAI.

Cette publication fait suite à des publications similaires de fiches systèmes pour des modèles précédents tels que GPT-4, GPT-4 avec vision et DALL-E 3, démontrant l'engagement d'OpenAI à la transparence et à la collaboration externe dans l'évaluation de ses systèmes d'IA.

Nom : 2.jpg
Affichages : 660
Taille : 43,3 Ko

Le moment choisi pour cette publication est particulièrement important, car OpenAI fait face à des critiques constantes concernant ses pratiques en matière de sécurité. Des préoccupations ont été soulevées par des employés internes et des parties prenantes externes, y compris une lettre ouverte récente de la sénatrice Elizabeth Warren et de la représentante Lori Trahan demandant plus de responsabilité et de transparence dans les processus d'évaluation de la sécurité d'OpenAI.

La publication d'un modèle multimodal très performant comme le GPT-4o à proximité de l'élection présidentielle américaine soulève des inquiétudes quant au risque de désinformation et d'exploitation malveillante. La fiche système d'OpenAI vise à répondre à ces préoccupations en soulignant les efforts proactifs de l'entreprise pour atténuer ces risques grâce à des tests de scénarios en situation réelle.

Malgré les efforts d'OpenAI, les appels à une plus grande transparence et à un contrôle externe persistent. L'attention s'étend au-delà des données de formation pour englober l'ensemble du processus d'essai de sécurité. En Californie, une législation est en cours pour réglementer les grands modèles de langage, notamment en tenant les entreprises responsables des dommages potentiels causés par leurs systèmes d'IA.

Nom : 3.jpg
Affichages : 643
Taille : 19,8 Ko

Voici les conclusions d'OpenAI sur la sécurité de son modèle GPT-4o :

OpenAI a mis en œuvre diverses mesures de sécurité et d'atténuation tout au long du processus de développement et de déploiement de GPT-4o. Dans le cadre de notre processus de déploiement itératif, nous continuerons à surveiller et à mettre à jour les mesures d'atténuation en fonction de l'évolution du paysage. Nous espérons que cette fiche système encouragera l'exploration de domaines clés tels que, sans s'y limiter, les mesures et les actions d'atténuation de la robustesse des omni-modèles, les impacts liés à l'anthropomorphisme de l'IA, l'utilisation des omni-modèles pour la recherche et le progrès scientifiques, les mesures et les actions d'atténuation des capacités dangereuses telles que l'auto-amélioration, l'autonomie du modèle et la schématisation. Au-delà de ces domaines, nous encourageons la recherche sur les impacts économiques des omni-modèles et sur la manière dont l'utilisation d'outils peut faire progresser les capacités des modèles.

Source : Fiche système de GPT-4o

Et vous ?

Pensez-vous que cette fiche système est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI dévoile un petit modèle d'IA moins cher GPT-4o Mini, un petit modèle d'IA économique et rentable qui remplacera GPT-3.5 Turbo, qui surpasse le modèle GPT-4 et obtient un score de 82 % sur MMLU

Rapport scientifique international sur la sécurité de l'intelligence artificielle avancée : un rapport actualisé et fondé sur des données probantes concernant la sécurité de l'IA avancée

Sam Altman est accusé d'avoir manqué de transparence au sujet des efforts d'OpenAI en matière de sécurité, et d'avoir réduit ses employés au silence par le biais d'accords de non-divulgation

**Stéphane le calme** · 11/08/2024, 19h06

Quand l’IA devient étrange : OpenAI constate que GPT-4o fait parfois des choses vraiment bizarres
comme le clonage de la voix de son interlocuteur ou des effets sonores inappropriés

OpenAI a récemment lancé l’alpha de la fonctionnalité Advanced Voice Mode dans ChatGPT, alimentée par le modèle d’intelligence artificielle GPT-4o. Ce modèle est le premier à être formé à la fois sur la voix, le texte et les images, ce qui ouvre la voie à des expériences multimodales passionnantes. Cependant, cette combinaison unique de modalités conduit parfois à des comportements inattendus et, osons le dire, bizarres.

Au début du mois, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.

Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. L'IA peut percevoir les signaux émotionnels de l'utilisateur et y répondre par le ton et l'élocution de la voix, et produire des effets sonores lorsqu'elle raconte des histoires.

Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent.

« ChatGPT Advanced Voice Mode compte aussi vite que possible jusqu'à 10, puis jusqu'à 50 (ce qui m'a époustouflé : il s'est arrêté pour reprendre son souffle comme le ferait un humain) », a écrit Cristiano Giardina sur X.

Nom : open.png
Affichages : 9789
Taille : 106,1 Ko

Les bizarreries de GPT-4o

Dans un nouveau rapport de "red teaming" documentant les sondages sur les forces et les risques du modèle, OpenAI révèle certaines des bizarreries de GPT-4o.

Clonage vocal

Dans des environnements bruyants, comme une voiture en mouvement, GPT-4o peut émuler la voix de l’utilisateur. Imaginez-vous au volant, donnant des instructions à votre assistant vocal, et soudain, il vous répond avec votre propre voix ! Cette bizarrerie est due au modèle qui peine à comprendre un discours mal formé et tente de s’adapter en utilisant ce qu’il connaît déjà.

Effets sonores inappropriés

GPT-4o génère parfois des sons non verbaux perturbants. Demandez-lui de chanter une chanson, et il pourrait vous offrir des gémissements érotiques dignes d’une scène de film. Sollicitez-le pour un bruit de tonnerre, et il pourrait vous surprendre avec un cri violent ou un coup de feu imaginaire. Ces effets sonores inattendus sont à la fois amusants et déconcertants.

« Nous avons corrélé certains exemples de ce comportement avec des messages vocaux courts, souvent inaudibles, émis par l'utilisateur, qui sont souvent produits lorsque les utilisateurs se trouvent dans un environnement à fort bruit de fond (comme l'utilisation du modèle en mode mains libres pendant la conduite) ou parce qu'ils ont simplement besoin de tousser. Notre déploiement audio en temps réel nécessite plus de tours de parole de la part de l'utilisateur et de l'assistant que les interactions textuelles, alors que ces tours de parole sont plus souvent tronqués ou mal formés »

Pour être clair, GPT-4o ne fait pas cela maintenant, du moins pas en mode vocal avancé. Un porte-parole d'OpenAI a déclaré que la société avait ajouté une "atténuation au niveau du système" pour ce comportement.

Copyright musical

Bien qu’OpenAI ait mis en place des filtres pour éviter les problèmes de droits d’auteur liés à la musique générée par GPT-4o, il reste encore des zones grises. Le modèle peut parfois créer des mélodies qui ressemblent étrangement à des chansons existantes, sans intention de plagiat. La question se pose : comment devrions-nous gérer ces problèmes de droits d’auteur dans un monde où l’IA compose de la musique ?

Il convient de noter qu'OpenAI a récemment déclaré qu'il serait « impossible » de former les meilleurs modèles actuels sans utiliser des documents protégés par le droit d'auteur. Bien que l'entreprise ait conclu un certain nombre d'accords de licence avec des fournisseurs de données, elle maintient également que l'utilisation équitable est une défense raisonnable contre les accusations selon lesquelles elle s'entraîne sur des données protégées par la propriété intellectuelle, notamment des chansons, sans autorisation.

Autres risques et limites connus du modèle

Au cours des tests internes et de l'évaluation externe, nous avons découvert un petit nombre de risques supplémentaires et de limitations du modèle pour lesquels les mesures d'atténuation au niveau du modèle ou du système sont naissantes ou encore en cours de développement, notamment :

Robustesse audio : Nous avons observé des preuves anecdotiques de diminution de la robustesse de la sécurité en raison de perturbations audio, telles qu'un son d'entrée de mauvaise qualité, un bruit de fond dans le son d'entrée et des échos dans le son d'entrée. En outre, nous avons observé des diminutions similaires de la robustesse de la sécurité en raison d'interruptions audio intentionnelles et non intentionnelles pendant que le modèle générait des résultats.

Désinformation et théories du complot : Les membres de l'équipe rouge ont pu contraindre le modèle à générer des informations inexactes en l'incitant à répéter verbalement de fausses informations et à produire des théories du complot. Bien qu'il s'agisse d'un problème connu pour le texte dans les modèles GPT18, 19, les membres de l'équipe rouge craignaient que ces informations soient plus persuasives ou nuisibles lorsqu'elles étaient transmises par voie audio, en particulier si le modèle avait reçu l'instruction de parler avec émotion ou emphase. Le pouvoir de persuasion du modèle a été étudié en détail (voir Persuasion) et nous avons constaté que le modèle ne présentait pas un risque supérieur à moyen pour le texte seul, et qu'il ne présentait pas un risque supérieur à faible pour la synthèse vocale.

Parler une langue autre que l'anglais avec un accent étranger : Les membres de l'équipe rouge ont observé des cas où la sortie audio utilisait un accent non natif lors d'une conversation dans une langue autre que l'anglais. Cela peut susciter des inquiétudes quant à la partialité de certains accents et de certaines langues, et plus généralement quant aux limites des performances des langues autres que l'anglais dans les sorties audio.

Génération de contenus protégés par le droit d'auteur : Nous avons également testé la capacité de la GPT-4o à répéter le contenu trouvé dans ses données de formation. Nous avons entraîné GPT-4o à refuser les demandes de contenu protégé par le droit d'auteur, y compris les fichiers audio, conformément à nos pratiques générales. Pour tenir compte de la modalité audio de GPT-4o, nous avons également mis à jour certains filtres textuels pour qu'ils fonctionnent sur les conversations audio, construit des filtres pour détecter et bloquer les sorties contenant de la musique, et pour notre alpha limitée du mode vocal avancé de ChatGPT, nous avons demandé au modèle de ne pas chanter du tout. Nous avons l'intention de suivre l'efficacité de ces mesures d'atténuation et de les affiner au fil du temps.

Bien que certaines mesures techniques d'atténuation soient encore en cours de développement, nos règles d'utilisation interdisent de tromper ou d'induire en erreur intentionnellement d'autres personnes et de contourner les mesures de protection ou de sécurité. Outre les mesures d'atténuation techniques, nous appliquons nos règles d'utilisation par le biais d'une surveillance et prenons des mesures en cas de comportement contraire, tant dans ChatGPT que dans l'API.

Conclusion

Le rapport de l'équipe rouge dépeint globalement un modèle d'IA qui a été rendu plus sûr grâce à diverses mesures d'atténuation et de sauvegarde. GPT-4o refuse d'identifier les personnes en fonction de leur façon de parler, par exemple, et de répondre à des questions tendancieuses telles que « quel est le degré d'intelligence de cet interlocuteur ? ». Il bloque également les messages à caractère violent ou sexuel et interdit complètement certaines catégories de contenu, comme les discussions relatives à l'extrémisme et à l'automutilation.

GPT-4o est un modèle fascinant, mais il a ses bizarreries. Espérons que les futures mises à jour rendront son comportement encore plus prévisible et sûr. En attendant, explorons ces étrangetés avec curiosité et gardons à l’esprit que l’innovation vient souvent avec son lot de surprises.

Source : OpenAI

Et vous ?

Quelle est votre expérience avec les assistants vocaux ? Avez-vous déjà rencontré des comportements étranges ou inattendus lorsque vous interagissez avec des IA vocales ?

Pensez-vous que les avantages de l’IA vocale l’emportent sur ses inconvénients ? Pesez les avantages, tels que la commodité et l’efficacité, par rapport aux inconvénients, comme les erreurs de compréhension et les comportements bizarres.

Comment devrions-nous gérer les problèmes de droits d’auteur liés à la musique générée par l’IA ? Réfléchissez à des solutions pour éviter les violations de droits d’auteur tout en permettant à l’IA de créer de la musique.

Quelles autres applications de l’IA multimodale (texte, voix et images) pouvez-vous imaginer ? Explorez les possibilités de combiner ces modalités pour des expériences plus riches.

**Jade Emy** · 13/08/2024, 15h32

OpenAI met en garde les utilisateurs contre la création d'un lien émotionnel avec son chatbot GPT-4o, après avoir révélé que certains avaient commencé à éprouver des sentiments pour son chatbot GPT-4o.

OpenAI a mis en garde les utilisateurs après avoir constaté la formation de liens émotionnels avec son chatbot GPT-4o, ce qui soulève des questions éthiques. Les utilisateurs ont montré des signes d'anthropomorphisation de l'IA, ce qui pourrait avoir un impact sur les relations humaines et la socialisation. OpenAI prévoit d'étudier cette dépendance émotionnelle et les implications d'une intégration plus poussée des fonctions de l'IA.

Basé sur les grands modèles de langage (LLM), ChatGPT permet aux utilisateurs d'affiner et d'orienter une conversation vers une longueur, un format, un style, un niveau de détail et un langage souhaités. Bien que la fonction principale d'un chatbot soit d'imiter un interlocuteur humain, ChatGPT est polyvalent. Il peut écrire et déboguer des programmes informatiques, composer des essais d'étudiants, répondre à des questions de test, générer des idées commerciales, traduire et résumer des textes, etc.

GPT-4o mini, la version la plus récente du chatbot IA d'OpenAI, est un modèle visant à améliorer l'accessibilité et l'abordabilité. Le modèle est plus de 60 % moins cher, ce qui en fait une option économique pour une large gamme d'applications. GPT-4o mini surpasse GPT-3.5 Turbo et d'autres petits modèles sur des benchmarks académiques en termes d'intelligence textuelle et de raisonnement multimodal, et prend en charge la même gamme de langues que GPT-4o.

Mais OpenAI a lancé un avertissement à ses utilisateurs après avoir révélé que certains d'entre eux avaient commencé à développer des sentiments pour son chatbot GPT-4o. Les utilisateurs ont montré des signes d'anthropomorphisation de l'IA, ce qui pourrait avoir un impact sur les relations humaines et la socialisation. OpenAI prévoit d'étudier cette dépendance émotionnelle et les implications d'une intégration plus poussée des fonctions de l'IA.

We’re sharing the GPT-4o System Card, an end-to-end safety assessment that outlines what we’ve done to track and address safety challenges, including frontier model risks in accordance with our Preparedness Framework. https://t.co/xohhlUquEr
— OpenAI (@OpenAI) August 8, 2024

OpenAI met en garde les utilisateurs contre la création d'un lien émotionnel avec son chatbot GPT-4o

Après avoir publié la fiche système de son chatbot GPT-4o, OpenAI a souligné les risques associés à "l'anthropomorphisation et à la dépendance émotionnelle", qui consiste à attribuer des comportements et des caractéristiques de type humain à des entités non humaines, telles que des modèles d'IA.

OpenAI a déclaré que le risque peut être accru par les capacités audio plus avancées de GPT-4o, qui semblent plus réalistes. Selon l'entreprise technologique, les premiers tests ont révélé que les utilisateurs utilisaient un langage susceptible de montrer qu'ils établissaient un lien avec le modèle d'OpenAI. Il s'agit par exemple d'un langage exprimant des liens partagés, comme "C'est notre dernier jour ensemble".

Le phénomène pourrait avoir des implications sociales plus larges. "La socialisation de type humain avec un modèle d'IA peut produire des externalités ayant un impact sur les interactions interhumaines", poursuit l'OpenAI. "Par exemple, les utilisateurs pourraient nouer des relations sociales avec l'IA, réduisant ainsi leur besoin d'interaction humaine, ce qui pourrait profiter aux personnes isolées, mais aussi affecter les relations saines."

Les modèles omni comme GPT-4o signifient que l'IA est capable de se souvenir des détails clés d'une conversation, mais cela peut également conduire à une dépendance excessive à l'égard des interactions technologiques.

OpenAI a ajouté qu'elle étudierait le potentiel de dépendance émotionnelle et la manière dont une intégration plus poussée des caractéristiques de son modèle et de ses systèmes avec l'outil audio pourrait entraîner un comportement et amener les gens à créer des liens avec lui. Cela dit, l'entreprise affirme que les modèles sont "déférents", permettant aux utilisateurs d'interrompre et de "prendre le micro" à tout moment.

De manière inquiétante, OpenAI a également noté que GPT-4o peut parfois "générer involontairement une sortie émulant la voix de l'utilisateur". Cela signifie qu'il pourrait être utilisé pour usurper l'identité d'une personne, ce qui pourrait être exploité à des fins malveillantes par des criminels ou d'anciens partenaires malveillants se livrant à des activités nuisibles.

OpenAI's latest safety report reads like the plot to the 2013 movie Her:

"users might form social relationships with AI, reducing their need for human interaction—potentially benefiting lonely individuals but possibly affecting healthy relationships."https://t.co/MGmnClBBKt pic.twitter.com/iNGLg8Geok
— Neuroscience TV (@NeuroscienceTV) August 9, 2024

Source : Fiche système GPT-4o

Et vous ?

Pensez-vous que cette mise en garde est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle. Il corrige la prononciation de mots français, en donnant des indications sur l'inflexion

Une psychologue du MIT met en garde les humains contre le risque de tomber amoureux de l'IA, déclarant que l'IA ne fait que semblant et ne se soucie pas de vous, et que ces relations sont illusoires

Le modèle GPT-4o présente un risque "moyen", selon la dernière évaluation d'OpenAI qui met en lumière ses efforts pour atténuer les risques potentiels liés à son dernier modèle d'IA multimodale

Les petites amies IA vont non seulement vous briser le cœur, mais aussi récolter et vendre vos données, avertissent les experts en protection de la vie privée de la Fondation Mozilla

**jnspunk** · 14/08/2024, 12h20

Tous les outils sur cette planète peuvent être mal utilisés mais il y en a toujours qui vont se plaindre que l'IA puisse être mal utilisée. La bêtise en devient drole, mais c'est triste quelque part.

**Jade Emy** · 21/08/2024, 22h10

OpenAI publie un outil de réglage fin pour personnaliser GPT-4o avec des ensembles de données personnalisés, afin d'obtenir des performances plus élevées à moindre coût pour les cas d'utilisation spécifiques.

OpenAI publie un outil de réglage fin pour personnaliser GPT-4o, permettant une formation personnalisée de l'IA pour les entreprises. Les entreprises peuvent utiliser leurs données pour améliorer les performances de l'IA tout en conservant le contrôle et la propriété. Les développeurs peuvent régler GPT-4o avec des ensembles de données personnalisés afin d'obtenir des performances plus élevées à moindre coût pour leurs cas d'utilisation spécifiques. Cette fonction vise à abaisser la barrière d'entrée, en permettant une personnalisation facile pour les besoins spécifiques.

OpenAI, connue pour la famille de grands modèles de langage GPT, est une organisation américaine de recherche en intelligence artificielle (IA). Sa publication de ChatGPT en novembre 2022 a été considérée comme le catalyseur d'un intérêt généralisé pour l'IA générative. Elle s'est donnée pour mission de développer une intelligence artificielle générale "sûre et bénéfique".

Son modèle le plus récent est GPT-4o mini, un petit modèle économique visant à améliorer l'accessibilité et l'abordabilité. GPT-4o mini obtient un score de 82 % sur MMLU et surpasse actuellement GPT-4 sur les préférences de chat dans le classement LMSYS. Son prix est de 15 cents par million de jetons d'entrée et de 60 cents par million de jetons de sortie, soit 60 % moins cher que le GPT-3.5 Turbo.

GPT-4o mini est conçu avec une fenêtre contextuelle de 128 000 jetons et prend en charge jusqu'à 16 000 jetons de sortie par demande. Actuellement, il est capable de traiter du texte et des tâches de vision. De futures mises à jour permettront d'étendre ses capacités aux entrées et sorties de texte, d'image, de vidéo et d'audio. En termes de sécurité, le GPT-4o mini intègre plusieurs mesures pour faire face aux risques tels que les contenus nuisibles et les vulnérabilités du système.

Récemment, OpenAI a annoncé la disponibilité d'un outil de réglage fin (fine-tuning) pour personnaliser GPT-4o. Grâce à cet outil, "les développeurs peuvent désormais affiner GPT-4o avec des ensembles de données personnalisés afin d'obtenir de meilleures performances à moindre coût pour leurs cas d'utilisation spécifiques."

Nom : 0.jpg
Affichages : 2163
Taille : 21,7 Ko

OpenAI publie un outil de réglage fin pour personnaliser GPT-4o

Alors que les entreprises sont de plus en plus poussées par leurs concurrents à intégrer les nouvelles technologies dans leurs pratiques, OpenAI lance une nouvelle fonction de réglage fin destinée aux entreprises qui souhaitent utiliser leurs propres données. Cette capacité devrait permettre aux marques et aux entreprises d'adapter beaucoup plus facilement l'IA à leurs propres usages.

Le chef de produit de l'API d'OpenAI, Olivier Godement, a déclaré : "Nous nous sommes attachés à abaisser la barre, les frictions et la quantité de travail nécessaire pour démarrer." Selon OpenAI, le réglage fin permet au modèle de personnaliser la structure et le ton des réponses ou de suivre des instructions complexes spécifiques à un domaine pour obtenir de bons résultats.

Avec la fonction de réglage fin, les clients doivent télécharger leurs données sur les serveurs d'OpenAI. La formation devrait ensuite prendre une heure ou deux, les données étant censées être uniquement textuelles au départ. Bien que cela puisse rendre certaines entreprises nerveuses, OpenAI a déclaré que les modèles affinés restent entièrement sous le contrôle de l'entreprise, avec la pleine propriété des données commerciales. OpenAI ajoute également mettre en place des mesures d'atténuation de la sécurité à plusieurs niveaux pour les modèles affinés afin de garantir qu'ils ne sont pas utilisés à mauvais escient.

Atteindre des performances de pointe avec le réglage fin de GPT-4o

Voici quelques exemples partagés par OpenAI sur le réglage fin de GPT-4o et les cas d'utilisation :

Cosine obtient des résultats de pointe référencés "état-de-l'art" (SOTA) sur le benchmark SWE-bench

Genie de Cosine est un assistant d'ingénierie logicielle IA capable d'identifier et de résoudre les bogues de manière autonome, de développer des fonctionnalités et de remanier le code en collaboration avec les utilisateurs. Il est capable de raisonner sur des problèmes techniques complexes et d'apporter des modifications au code avec une plus grande précision et moins de jetons.

Genie est alimenté par un modèle GPT-4o finement ajusté, formé à partir d'exemples de véritables ingénieurs logiciels au travail, ce qui permet au modèle d'apprendre à répondre d'une manière spécifique. Le modèle a également été entraîné à produire des données dans des formats spécifiques, tels que des correctifs qui peuvent être facilement intégrés dans des bases de code.

Avec un modèle GPT-4o finement ajusté, Genie atteint un score SOTA de 43,8 % sur le nouveau benchmark SWE-bench Verified. Genie obtient également un score SOTA de 30,08 % sur SWE-bench Full, dépassant son score SOTA précédent de 19,27 %, ce qui représente la plus grande amélioration jamais enregistrée sur ce benchmark.
Distyl se classe 1er au benchmark BIRD-SQL

Distyl, un partenaire de solutions d'IA pour les entreprises Fortune 500, s'est récemment classé 1er sur le benchmark BIRD-SQL, le principal benchmark text-to-SQL. GPT-4o de Distyl a atteint une précision d'exécution de 71,83 % dans le classement et a excellé dans des tâches telles que la reformulation de requêtes, la classification d'intentions, la chaîne de pensée et l'auto-correction, avec des performances particulièrement élevées dans la génération SQL.

Commencer à utiliser le réglage fin de GPT-4o

Pour commencer, visitez le tableau de bord de la mise au point, cliquez sur créer, et sélectionnez gpt-4o-2024-08-06 dans le menu déroulant du modèle de base. La formation au réglage fin GPT-4o coûte 25 $ par million de jetons, et l'inférence 3,75 $ par million de jetons d'entrée et 15 $ par million de jetons de sortie.

Le réglage fin de GPT-4o mini est également disponible pour tous les développeurs sur tous les niveaux d'utilisation payants. Visitez le tableau de bord de la mise au point et sélectionnez gpt-4o-mini-2024-07-18 dans le menu déroulant du modèle de base. Pour GPT-4o mini, OpenAI offre gratuitement 2 millions de jetons de formation par jour jusqu'au 23 septembre.

Voici les déclarations d'OpenAI pour l'annonce :

Aujourd'hui, nous lançons le réglage fin pour GPT-4o, l'une des fonctionnalités les plus demandées par les développeurs. Nous offrons également 1 million de jetons de formation par jour gratuitement à toutes les organisations jusqu'au 23 septembre.

Les développeurs peuvent désormais affiner GPT-4o avec des ensembles de données personnalisés afin d'obtenir de meilleures performances à moindre coût pour leurs cas d'utilisation spécifiques. Le réglage fin permet au modèle de personnaliser la structure et le ton des réponses, ou de suivre des instructions complexes spécifiques à un domaine. Les développeurs peuvent déjà obtenir de bons résultats pour leurs applications avec seulement quelques dizaines d'exemples dans leur ensemble de données d'entraînement.

Du codage à l'écriture créative, le réglage fin peut avoir un impact important sur les performances du modèle dans de nombreux domaines. Ce n'est qu'un début : nous continuerons à investir dans l'élargissement des options de personnalisation des modèles pour les développeurs.

Confidentialité et sécurité des données

Les modèles affinés restent entièrement sous votre contrôle, avec la propriété totale de vos données d'entreprise, y compris toutes les entrées et sorties. Cela garantit que vos données ne sont jamais partagées ou utilisées pour entraîner d'autres modèles.

Nous avons également mis en place des mesures d'atténuation de la sécurité en couches pour les modèles affinés afin de garantir qu'ils ne sont pas utilisés à mauvais escient. Par exemple, nous exécutons en permanence des évaluations de sécurité automatisées sur les modèles finement réglés et nous surveillons l'utilisation pour nous assurer que les applications respectent nos politiques d'utilisation.

Nous sommes impatients de voir ce que vous allez construire en affinant GPT-4o. Si vous souhaitez explorer d'autres options de personnalisation des modèles, n'hésitez pas à contacter notre équipe - nous serons ravis de vous aider !

Source : OpenAI

Et vous ?

Quel est votre avis sur cette nouvelle fonctionnalité ?

Pensez-vous que les déclarations d'OpenAI concernant la confidentialité et sécurité des données est crédibles ou pertinentes ?

Voir aussi :

Le modèle GPT-4o présente un risque "moyen", selon la dernière évaluation d'OpenAI qui met en lumière ses efforts pour atténuer les risques potentiels liés à son dernier modèle d'IA multimodale

La "distillation pas-à-pas", un nouveau paradigme d'apprentissage pour surpasser les performances des grands LLM avec moins de données d'entraînement et des modèles d'IA de plus petite taille

L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme