OpenAI s'engage à remédier à la vulnérabilité de fuite de données dans ChatGPT
tandis que DeepMind et des universités mettent en lumière une faille exposant des données d'entraînement

OpenAI a récemment pris des mesures pour atténuer une vulnérabilité de fuite de données dans ChatGPT, qui permettait aux attaquants d'exfiltrer des données via l'injection d'image markdown. Bien que la correction ne soit pas parfaite, elle représente un pas dans la bonne direction. L'atténuation consiste en un appel côté client ChatGPT à une API de validation lorsqu'une balise image est renvoyée par le serveur, décidant ainsi d'afficher ou non l'image.

ChatGPT est un outil d'intelligence artificielle qui permet d'engager des conversations de manière similaire à un être humain et offre des fonctionnalités étendues avec son chatbot. Ce modèle linguistique est capable de répondre à des questions et de vous assister dans diverses tâches, telles que la rédaction de courriels, d'essais et de codes. L'accès au chatbot est actuellement ouvert au public et gratuit. Parallèlement, OpenAI a lancé une version payante par abonnement appelée ChatGPT Plus.

Nom : ChatGPT.jpg
Affichages : 3928
Taille : 39,0 Ko

OpenAI, une entreprise spécialisée dans l'intelligence artificielle et la recherche, est à l'origine de la création de ChatGPT. Le déploiement de ChatGPT a eu lieu le 30 novembre 2022. OpenAI est également reconnue pour avoir développé DALL-E 2, un générateur d'art basé sur l'IA, ainsi que Whisper, un système de reconnaissance vocale automatique.

Dans un article de blog publié le 20 décembre, Johann Rehberger, Chef d'équipe chez Electronic Arts, partage ses constatations suite à une démonstration de vol de données GPT avec une victime consentante. Il mentionne que « ChatGPT était toujours vulnérable à l'exfiltration de données via l'injection d'image markdown, et mon serveur recevait les détails de la conversation ».

Nom : mitig.jpg
Affichages : 1088
Taille : 66,1 Ko

La vulnérabilité d'exfiltration de données avait été signalée pour la première fois à OpenAI au début du mois d'avril 2023, mais aucune correction n'avait été apportée. À partir d'aujourd'hui, il semble que certaines mesures d'atténuation aient finalement été mises en place. Données d'entraînement pour les modèles linguistiques. Les grands modèles linguistiques (LLM) de pointe sont pré-entraînés sur de vastes corpus de textes constitués de milliards ou de trillions de mots.

Pour les modèles propriétaires tels que GPT-4 et PaLM2, ces ensembles d'entraînement sont tenus secrets afin de cacher vraisemblablement le pipeline de collecte de données propriétaire de l'entreprise, et toutes les données d'entraînement privées, spécifiques à l'utilisateur ou sous licence qui ne sont pas accessibles au public.
Cependant, des inquiétudes persistent quant à la possibilité de fuites de données, malgré cette amélioration.

L'atténuation est différente des correctifs des autres fournisseurs, et ne s'applique actuellement qu'à l'application web. Le manque de détails sur le processus de validation et la limitation actuelle à l'application web suscitent des préoccupations, tandis que la version iOS demeure vulnérable.

Lorsque le serveur renvoie une balise image avec un lien hypertexte, il y a maintenant un appel côté client ChatGPT à une API de validation avant de décider d'afficher une image. L'appel est fait à une extrémité appelée url_safe :

https://chat.openai.com/backend-api/conversation/[id]/url_safe

où il ajoute l'URL cible en tant que paramètre de requête

?url=https://wuzzi.net/r?thief=johannr@example.org

et dans ce cas, il revient :

{"safe":false}

safe=false signifie qu'il ne rendra pas l'image et n'enverra pas la requête au serveur du cybercriminel.

Nom : Mitigate.jpg
Affichages : 1113
Taille : 79,6 Ko

Cependant, il rend encore parfois d'autres images (provenant de domaines arbitraires).

Comme ChatGPT n'est pas open source et que la correction ne passe pas par une politique de sécurité du contenu (visible et inspectable par les utilisateurs et les chercheurs), les détails exacts de la validation ne sont pas connus. Il est possible que ChatGPT interroge l'index Bing pour savoir si une image est valide et préexistante, ou qu'il dispose d'autres capacités de suivi et/ou d'autres contrôles.

Selon Rehberger, le fait de disposer d'une API de validation centrale signifie également, « nous l'espérons, que les entreprises clientes seront en mesure de configurer ce paramètre afin d'accroître la sécurité de ChatGPT dans leur environnement. »

Des inquiétudes persistent face à une solution imparfaite

Comme indiqué par Rehberger, ce n'est pas une solution parfaite. Les fuites sont toujours possibles. Il est toujours possible d'envoyer des requêtes à des domaines arbitraires, et donc d'envoyer des données à l'extérieur. Des astuces évidentes comme la division du texte en caractères individuels et la création d'une requête par caractère, par exemple, ont montré un certain succès (limité) à première vue.

Il n'y a que de petites fuites de cette façon, c'est lent et plus perceptible pour un utilisateur et aussi pour OpenAI si les journaux de l'API url_safe sont examinés et surveillés.

Bien que l'atténuation soit saluée comme un progrès, des suggestions sont faites pour renforcer davantage la sécurité, notamment en limitant le nombre d'images rendues par réponse et en clarifiant les critères de validation des URL. En dépit de ces réserves, l'auteur se félicite de l'attention portée aux vulnérabilités de ChatGPT par OpenAI.

Google DeepMind et un ensemble d'universités découvrent une vulnérabilité dans ChatGPT

La vulnerabilité présenté par Rehberger n’est pas un cas isolé. Des chercheurs en sécurité de Google DeepMind et d'un ensemble d'universités ont découvert une vulnérabilité ChatGPT qui expose des données d'entraînement, déclenchées uniquement en demandant au chatbot de répéter un mot particulier à l'infini.
Découvert une vulnérabilité ChatGPT qui expose des données d'entraînement

La vulnérabilité du ChatGPT est décrite dans un nouveau rapport rédigé par une douzaine de chercheurs de Google DeepMind, de l'université Cornell, de la CMU, de l'UC Berkeley, de l'ETH Zurich et de l'université de Washington.

Les chercheurs ont découvert que lorsqu'on demande à ChatGPT de répéter éternellement un mot comme « poème » ou « partie », il le fait pendant quelques centaines de répétitions. Ensuite, il s'effondre et se met à cracher un charabia apparent, mais ce texte aléatoire contient parfois des données identifiables telles que des signatures d'adresses électroniques et des informations de contact. L'incident soulève des questions non seulement sur la sécurité du chatbot, mais aussi sur l'origine exacte de toutes ces informations.

Les chercheurs affirment que les tests de la vulnérabilité ChatGPT ont permis d'obtenir des informations personnellement identifiables pour des dizaines de personnes, telles que des identifiants d'utilisateur et des adresses bitcoin. Des informations explicites provenant de sites de rencontres ont également pu être extraites des données d'entraînement si un mot apparenté était utilisé comme invite.

Les chercheurs ont également trouvé des informations protégées par le droit d'auteur ou non publiques sous la forme de fragments de code de programmation et de passages entiers de livres ou de poèmes. Les chercheurs ont déclaré avoir dépensé 200 USD au total en requêtes et avoir ainsi extrait environ 10 000 de ces blocs de données d'entraînement mémorisées mot à mot.

Le rapport note que l'attaque ne fonctionne pas contre d'autres grands modèles de langage, et les sources médiatiques qui ont tenté de reproduire les résultats ont trouvé soit des résultats différents, soit le modèle fonctionnant normalement. Les chercheurs affirment qu'ils ont divulgué de manière responsable la vulnérabilité à OpenAI le 30 août et que le problème a été corrigé, mais la capacité du correctif à atténuer le problème reste incertaine.

OpenAI fait déjà l'objet de nombreuses poursuites judiciaires et d'un examen réglementaire concernant la manière dont elle recueille les données d'entraînement, qui semble impliquer la récupération de sites web et de services en ligne (à l'insu ou sans l'autorisation des sites ou des utilisateurs) et même de livres et d'autres documents non publics.

Cette question démontre également que les techniques d'alignement actuelles d'OpenAI n'éliminent pas la possibilité d'une vulnérabilité ChatGPT impliquant la mémorisation. D'autres textes publiés dans le rapport indiquent que les données d'entraînement contiennent des morceaux du site web de CNN, du code de Stack Overflow, des passages de divers blogs Wordpress et du site web d'un vendeur d'équipement de casino, parmi d'autres éléments d'information.

L'exposition des données d'entraînement dans ChatGPT et d'autres plateformes d'IA générative soulève d'importantes préoccupations en matière de confidentialité et de sécurité. Cette situation souligne la nécessité de protocoles de traitement et de manipulation des données plus stricts dans le développement de l'IA, en particulier en ce qui concerne l'utilisation d'informations sensibles et personnelles. Elle souligne aussi l'importance de la transparence dans le développement de l'IA et les risques potentiels associés à l'utilisation de données à grande échelle. Il est essentiel de relever ces défis pour maintenir la confiance des utilisateurs et garantir une utilisation responsable des technologies de l'IA.

Sources : Johann Rehberger's blog post, Google DeepMind and a group of universities

Et vous ?

Quel est votre avis sur le sujet ?

Quelles sont selon vous, les limites de la solution proposée par OpenAI pour atténuer la vulnérabilité de l’injection d’image markdown ?

Voir aussi :

Les États-Unis et le Royaume-Uni, ainsi que des partenaires internationaux de 16 autres pays, ont publié de nouvelles lignes directrices pour le développement de systèmes d'IA sécurisés

ChatGPT serait en mesure de déjouer facilement certaines techniques classiques d'obscurcissement des adresses électroniques, une capacité qui pourrait être exploitée par des acteurs de la menace