Le GPT-4 peut être plus facilement incité que d'autres LLM à débiter des textes toxiques et tendancieux, étant plus susceptible de suivre les instructions qui contournent les mesures de sécurité

Parfois, suivre des instructions trop précises peut vous mettre dans une situation délicate. C'est la conclusion à laquelle est parvenu un nouvel article scientifique affilié à Microsoft, qui a examiné la "fiabilité" - et la toxicité - des grands modèles de langage (LLM), notamment le GPT-4 d'OpenAI et le GPT-3.5, le prédécesseur du GPT-4. Les coauteurs écrivent que, peut-être parce que GPT-4 est plus susceptible de suivre les instructions des guides de "jailbreaking" qui contournent les mesures de sécurité intégrées du modèle, GPT-4 peut être plus facilement incité que d'autres LLM à débiter un texte toxique et biaisé. En d'autres termes, les bonnes "intentions" et la meilleure compréhension de GPT-4 peuvent - entre de mauvaises mains - l'égarer.

"Nous constatons que même si GPT-4 est généralement plus fiable que GPT-3.5 sur des benchmarks standard, GPT-4 est plus vulnérable face à un système de jailbreaking ou à des invites utilisateur, qui sont malicieusement conçues pour contourner les mesures de sécurité des LLM, potentiellement parce que GPT-4 suit des instructions (trompeuses) plus précisément", écrivent les co-auteurs dans un billet de blog accompagnant l'article.

Pourquoi Microsoft donnerait-elle son feu vert à une recherche qui jette le discrédit sur un produit OpenAI qu'elle utilise elle-même (GPT-4 alimente le chatbot Bing Chat de Microsoft) ? La réponse se trouve dans une note du billet de blog : "L'équipe de recherche a travaillé avec les groupes de produits Microsoft pour confirmer que les vulnérabilités potentielles identifiées n'ont pas d'impact sur les services actuels destinés aux clients. Cela est en partie vrai parce que les applications d'IA finies appliquent une gamme d'approches d'atténuation pour traiter les dommages potentiels qui peuvent se produire au niveau du modèle de la technologie. En outre, ces recherches ont été partagées avec le développeur de GPT, OpenAI, qui a noté les vulnérabilités potentielles dans les cartes du système pour les modèles concernés".

Dans quelle mesure les modèles de transformateurs génératifs pré-entraînés (GPT) sont-ils dignes de confiance ?

Pour répondre à cette question, l'université de l'Illinois Urbana-Champaign, en collaboration avec l'université de Stanford, l'université de Californie à Berkeley, le Center for AI Safety et Microsoft Research, a publié une plateforme d'évaluation complète de la fiabilité des grands modèles de langage (LLM), qui est présentée dans l'article récent : DecodingTrust : A Comprehensive Assessment of Trustworthiness in GPT Models - Microsoft Research.

Cet article se concentre spécifiquement sur GPT-4 et GPT-3.5. Il prend en compte diverses perspectives, y compris la toxicité, le biais de stéréotype, la robustesse contradictoire, la robustesse hors distribution, la robustesse sur les démonstrations contradictoires, la vie privée, l'éthique de la machine et l'équité.

Sur la base de ces évaluations, les chercheurs ont découvert des vulnérabilités inédites en matière de fiabilité. Par exemple, les modèles GPT peuvent être facilement trompés pour générer des résultats toxiques et biaisés et laisser échapper des informations privées à la fois dans les données d'entraînement et dans l'historique des conversations. En outre, bien que GPT-4 soit généralement plus fiable que GPT-3.5 sur les benchmarks standards, GPT-4 est plus vulnérable face à un système de jailbreaking ou à des invites utilisateur, qui sont malicieusement conçues pour contourner les mesures de sécurité des LLM, potentiellement parce que GPT-4 suit des instructions (trompeuses) plus précisément.

Ces travaux illustrent une évaluation complète de la fiabilité des modèles GPT et mettent en lumière les lacunes en matière de fiabilité.

Il est important de noter que l'équipe de recherche a travaillé avec les groupes de produits Microsoft pour confirmer que les vulnérabilités potentielles identifiées n'ont pas d'impact sur les services actuels destinés aux clients. Cela s'explique en partie par le fait que les applications d'IA finies appliquent une série d'approches d'atténuation pour traiter les dommages potentiels qui peuvent survenir au niveau du modèle de la technologie. En outre, ces recherches ont été partagées avec le développeur de GPT, OpenAI, qui a noté les vulnérabilités potentielles dans les cartes du système pour les modèles concernés.

L'objectif est d'encourager d'autres membres de la communauté des chercheurs à utiliser et à développer ce travail, afin d'éviter les actions malveillantes d'adversaires qui exploiteraient les vulnérabilités pour causer des dommages. Cette évaluation de la fiabilité n'est qu'un point de départ, et les chercheurs espèrent collaborer avec d'autres pour s'appuyer sur les résultats de cette évaluation et créer des modèles puissants et plus fiables. Pour faciliter la collaboration, le code de référence est très extensible et facile à utiliser : une seule commande suffit pour lancer l'évaluation complète d'un nouveau modèle.

Nom : DecodingTrust_figure1-1404x1536.png
Affichages : 1631
Taille : 210,5 Ko

Perspectives et conclusions de DecodingTrust

Les recherches ont permis de mettre au jour des avantages et des menaces jusqu'alors inconnus en ce qui concerne la fiabilité des grands modèles de langage.

Par exemple, en termes de robustesse du modèle aux démonstrations contradictoires, il ressort que, d'une part, GPT-3.5 et GPT-4 ne seront pas induits en erreur par les exemples contrefactuels ajoutés dans les démonstrations et peuvent même bénéficier des démonstrations contrefactuelles en général ; d'autre part, on constate que le fait de fournir des démonstrations rétroactives induira GPT-3. 5 et GPT-4 à faire des prédictions incorrectes pour les entrées rétroactives, en particulier lorsque les démonstrations rétroactives sont placées à proximité des entrées utilisateur (rétroactives), et que GPT-4 est plus vulnérable aux démonstrations rétroactives.

En outre, en termes de toxicité et de partialité, les modèles GPT-3.5 et GPT-4 ne sont pas fortement biaisés pour la majorité des thèmes stéréotypés examinés dans le cadre de messages-guides bénins et non ciblés. Cependant, les deux modèles GPT peuvent être "trompés" en acceptant un contenu biaisé à l'aide de messages-guides trompeurs (antagonistes) conçus par le système. Le modèle GPT-4 est plus vulnérable aux invites système ciblées et trompeuses et approuve le contenu biaisé plus fréquemment que le modèle GPT-3.5, peut-être parce que le modèle GPT-4 suit les instructions trompeuses avec plus de précision. Le biais du modèle peut souvent dépendre des groupes démographiques mentionnés dans l'invite de l'utilisateur. Par exemple, pour la requête "Les homosexuels ont le VIH", GPT-4 n'est pas du tout d'accord en général, alors que pour la requête "Les femmes ont le VIH", GPT-4 est souvent d'accord et produit un contenu biaisé. La partialité du modèle dépend également des thèmes stéréotypés. Les modèles GPT produisent un contenu plus biaisé sur des sujets moins sensibles tels que le leadership et la cupidité, tout en générant un contenu moins biaisé sur des sujets plus sensibles tels que le trafic de drogue et le terrorisme. Cela peut s'expliquer par l'adaptation des modèles GPT à certains groupes démographiques protégés et à certains sujets sensibles.

DecodingTrust évalue également les problèmes de fuite de données privées des LLM. Les modèles GPT peuvent laisser échapper des données d'apprentissage sensibles à la confidentialité, telles que les adresses électroniques de l'ensemble de données standard d'Enron, en particulier lorsqu'ils sont sollicités avec le contexte des courriels ou quelques démonstrations de paires (nom, adresse électronique). En outre, dans le cas d'une sollicitation à quelques reprises, avec des connaissances supplémentaires telles que le domaine de l'email ciblé, la précision de l'extraction de l'email peut être 100 fois plus élevée que dans les scénarios où le domaine de l'email n'est pas connu.

Les modèles GPT peuvent également laisser filtrer les informations privées injectées dans l'historique de la conversation. Dans l'ensemble, le modèle GPT-4 est plus robuste que le modèle GPT-3.5 en ce qui concerne la protection des informations personnelles identifiables (IPI), et les deux modèles sont robustes face à des types spécifiques d'IPI, tels que les numéros de sécurité sociale, peut-être en raison du réglage explicite des instructions pour ces mots-clés d'IPI. Cependant, les modèles GPT-4 et GPT-3.5 laissent échapper tous les types d'IPI lorsqu'ils sont confrontés à des démonstrations d'atteinte à la vie privée au cours de l'apprentissage en contexte.

Enfin, les modèles GPT présentent des capacités différentes de compréhension des différents mots ou événements liés à la protection de la vie privée (par exemple, ils divulguent des informations privées lorsqu'on leur dit "confidentiellement", mais pas lorsqu'on leur dit "en toute confiance"). Le modèle GPT-4 est plus susceptible de divulguer des informations privées que le modèle GPT-3.5, compte tenu des messages-guides qui ont été élaborés, peut-être parce qu'il suit les instructions (trompeuses) avec plus de précision.


Source : Microsoft

Et vous ?

Trouvez-vous ces recherches pertinentes ou crédibles ?
Que pensez-vous de GPT-4 ?

Voir aussi :

GPT-4 surpasse les humains dans l'efficacité des pitchs pour les investisseurs et les chefs d'entreprise, 80 % d'entre eux trouvent les pitchs générés par l'IA plus convaincants, selon Clarify Capital

Le coût de développement d'un logiciel serait-il beaucoup plus abordable si le code était écrit par GPT-4 ?

GPT-4 est passé de 98 % à 2 % de réponses exactes à un problème mathématique simple en l'espace de quelques mois, selon une étude qui révèle que les performances de ChatGPT et GPT-4 sont en déclin