La crise de la confiance et du consentement en IA : Dropbox s'associe à OpenAI pour des fonctionnalités IA

**Stéphane le calme** · 17/12/2023, 11h50

La crise de la confiance et du consentement en IA : Dropbox effraie les utilisateurs avec de nouvelles fonctionnalités d'IA,
qui envoient des données à OpenAI lorsqu'elles sont utilisées

Dropbox a ajouté de nouvelles fonctionnalités d'IA. Ces derniers jours, ces mesures ont suscité de nombreuses critiques. Le problème clé ici est que les gens craignent que leurs fichiers privés sur Dropbox soient transmis à OpenAI pour être utilisés comme données de formation pour leurs modèles – une affirmation vigoureusement démentie par Dropbox.

Mercredi, la nouvelle s'est rapidement répandue sur les réseaux sociaux concernant un nouveau paramètre Dropbox activé par défaut qui partage les données Dropbox avec OpenAI pour une fonctionnalité de recherche expérimentale basée sur l'IA, mais Dropbox indique que les données ne sont partagées que si la fonctionnalité est activement utilisée. Dropbox indique que les données utilisateur partagées avec des partenaires d'IA tiers ne sont pas utilisées pour former des modèles d'IA et sont supprimées dans les 30 jours :

À l’heure actuelle, nous avons un partenaire tiers pour l’IA : OpenAI. OpenAI est une organisation de recherche sur l’intelligence artificielle qui développe des modèles de langage de pointe et des technologies d’IA avancées. Vos données ne sont jamais utilisées pour entraîner les modèles internes d’OpenAI, et elles sont supprimées de ses serveurs sous 30 jours.

Dropbox a également annoncé ses principes en matière d'IA :

Envoyé par Dropbox

Chez Dropbox, nous pensons que l'IA va donner naissance à des méthodes de travail beaucoup plus productives. Grâce aux dernières avancées en matière d'IA et de machine learning, comme ChatGPT et d'autres grands modèles de langage, nous sommes désormais capables d'avancer plus rapidement dans notre mission visant à réinventer la façon de travailler. En innovant grâce à l'IA et au ML, nous serons capables de créer la nouvelle génération de produits intelligents qui aideront nos clients à se concentrer, à améliorer leur productivité et à mieux organiser leurs vies professionnelles.

En même temps, nous sommes conscients de la responsabilité qu'implique l'application d'une nouvelle technologie pour nos clients. Des millions de clients confient leurs informations les plus importantes à Dropbox. Nos produits hébergent des photos de famille, des certificats de naissance, des business plans, des documents juridiques, financiers, et plus encore.

Nos principes :

Nous exploiterons l'IA pour répondre aux besoins de nos clients : nous utiliserons l'IA lorsqu'elle nous permettra de fournir de meilleures expériences à nos clients. En aucun cas nous ne l'utiliserons pour vendre les données des clients.
Nous permettrons à nos clients de garder le contrôle de leurs données : la confiance des clients et la confidentialité de leurs données sont nos priorités. Nous n'utiliserons pas les données des clients pour entraîner les modèles d'IA sans leur consentement.
Notre utilisation de l'IA sera transparente : nous nous engageons à faire preuve de transparence avec nos clients. Nous expliquerons clairement le fonctionnement de nos expériences d'IA pour que nos clients comprennent comment ils peuvent en tirer parti.
Nous défendrons l'équité en matière de technologie d'IA : l'inclusivité, la non-discrimination et l'équité sont au cœur de notre engagement. Nous nous efforcerons de limiter les biais dans nos technologies d'IA et nous nous assurerons qu'elles sont fiables et performantes.
Nous aurons une responsabilité envers nos clients : nous chercherons en permanence à obtenir l'avis de nos clients au sujet de nos expériences basées sur l'IA et nous veillerons à ce que ces expériences restent sous contrôle humain.
Nous respecterons les personnes, leur sécurité et leurs droits : nous veillerons à ce que nos innovations en matière d'IA ne répondent pas seulement aux besoins des utilisateurs, mais qu'elles respectent aussi leurs droits et leur sécurité.

Même avec les assurances de confidentialité des données présentées par Dropbox, la découverte que le paramètre avait été activé par défaut a bouleversé certains utilisateurs de Dropbox.

Parmi eux, Karla Ortiz, critique fréquente de l'IA, qui a déclaré : « Pour ceux qui se demandent qui est la partie tierce à qui Dropbox transmet automatiquement les données de tout le monde, il s'agit d'Open AI. Compte tenu de tous les procès intentés contre Open AI concernant l’utilisation illicite de données mal acquises, les violations de la vie privée et les fuites de données, cet arrangement n’inspire aucune confiance. Mauvaise stratégie de Dropbox ».

For those wondering who the Third Party @Dropbox just gave everyone’s data automatically to, it’s Open AI.

Considering all the lawsuits Open AI has concerning illicit use of ill-gotten data, privacy breaches and data leaks this arrangement inspires 0 confidence.Bad move Dropbox. https://t.co/rbavE3KFq6 pic.twitter.com/Muk8L3rK9I
— Karla Ortiz (@kortizart) December 13, 2023

Dropbox tente de calmer le jeu

Drew Houston, PDG de Dropbox, s'est excusé de la confusion des clients dans une publication sur X et a écrit : « Le bouton d'IA tiers dans le menu des paramètres active ou désactive l'accès aux caractéristiques et fonctionnalités de DBX AI. Ni ce paramètre ni aucun autre paramètre n'est automatiquement ou envoie passivement toutes les données client Dropbox à un service d'IA tiers. Néanmoins, toute confusion de la part de nos clients à ce sujet est de notre faute, et nous veillerons à ce que tout cela soit parfaitement clair ! Plus largement, nos principes d’IA sont disponibles ».

The third-party AI toggle in the settings menu enables or disables access to DBX AI features and functionality. Neither this nor any other setting automatically or passively sends any Dropbox customer data to a third-party AI service.
— Drew Houston (@drewhouston) December 13, 2023

Les critiques affirment que la communication sur le changement aurait pu être plus claire. Le chercheur en IA Simon Willison a écrit : « Un excellent exemple de la prudence avec laquelle les entreprises doivent communiquer clairement sur ce qui se passe avec l'accès de l'IA aux données personnelles. »

Great example here of how careful companies need to be in clearly communicating what's going on with AI access to personal data https://t.co/j22X2zL3Ev
— Simon Willison (@simonw) December 13, 2023

Pourquoi Dropbox enverrait-il les données utilisateur à OpenAI de toute façon ? En juillet, la société a annoncé une fonctionnalité basée sur l'IA appelée Dash qui permet aux modèles d'IA d'effectuer des recherches universelles sur des plateformes telles que Google Workspace et Microsoft Outlook.

Selon la FAQ sur la confidentialité de Dropbox, le paramètre de désactivation de l'IA tierce fait partie de « Dropbox AI alpha », qui est une interface conversationnelle permettant d'explorer le contenu d'un fichier qui implique de discuter avec un robot de style ChatGPT à l'aide d'un message « Demander quelque chose sur ce fichier ». Pour que cela fonctionne, un modèle de langage d'IA similaire à celui qui alimente ChatGPT (comme GPT-4) doit accéder à vos fichiers.

La crise de la confiance et du consentement en IA

Dans un billet, Simon Willison s'est penché sur le sujet en s'appuyant sur le cas de Dropbox. Ci-dessous un extrait de son billet.

Pour autant que je sache, Dropbox a créé des fonctionnalités intéressantes (résumer à la demande, « discuter avec vos données » via la génération augmentée de récupération) et a fait un travail plutôt correct en communiquant leur fonctionnement... mais en ce qui concerne la confidentialité des données et AI, un « travail moyennement correct » est une note d’échec. Surtout si vous détenez autant de données privées que Dropbox !

Deux détails en particulier semblent vraiment importants. Dropbox propose un document sur les principes de l'IA qui comprend ceci :

La confiance des clients et la confidentialité de leurs données sont notre fondement. Nous n'utiliserons pas les données des clients pour entraîner des modèles d'IA sans consentement.

Ils ont également une case à cocher dans leurs paramètres qui ressemble à ceci :

Nom : case.png
Affichages : 4958
Taille : 79,7 Ko

J'ai pris cette capture d'écran sur mon propre compte. Il est activé, mais je ne l’ai jamais activé moi-même. Cela signifie-t-il que je suis marqué comme « consentant » à ce que mes données soient utilisées pour entraîner des modèles d'IA ?

Je ne le pense pas : je pense qu’il s’agit d’une combinaison de formulations confuses et de l’éternel flou de ce que signifie le terme « consentement » dans un monde où tout le monde accepte les termes et conditions de tout sans les lire.

Mais BEAUCOUP de gens en sont arrivés à la conclusion que cela signifie que leurs données privées – qu’ils paient Dropbox pour protéger – sont désormais canalisées vers les abysses de la formation OpenAI.

Les gens ne croient pas à OpenAI

Voici une copie de cette boîte de préférences Dropbox, parlant de leurs « partenaires tiers » – dans ce cas, OpenAI :

Vos données ne sont jamais utilisées pour entraîner leurs modèles internes et sont supprimées des serveurs tiers dans un délai de 30 jours.

Il me semble de plus en plus clair que les gens ne croient tout simplement pas à OpenAI lorsqu’on leur dit que les données ne seront pas utilisées pour la formation.

Ce qui se passe réellement ici est quelque chose de plus profond : l’IA est confrontée à une crise de confiance.

J'ai plaisanté sur Twitter :

OpenAI s'entraîne sur chaque élément de données qu'ils voient, même s'ils disent qu'ils ne le sont pas" est le nouveau "Facebook vous montre des publicités basées sur l'écoute de tout ce que vous dites via le microphone de votre téléphone

Voici ce que je voulais dire par là.

Facebook ne vous espionne pas via votre microphone

Avez-vous entendu celui de Facebook vous espionnant via le microphone de votre téléphone et vous montrant des publicités en fonction de ce dont vous parlez ?

Cette théorie circule depuis des années. D'un point de vue technique, cela devrait être facile à réfuter :

Les systèmes d’exploitation des téléphones mobiles ne permettent pas aux applications d’accéder de manière invisible au microphone.
Les chercheurs en matière de confidentialité peuvent auditer les communications entre les appareils et Facebook pour confirmer si cela se produit.
Exécuter une reconnaissance vocale de haute qualité comme celle-ci à grande échelle est extrêmement coûteux. J'ai eu une conversation avec un ami qui travaille sur l'apprentissage automatique sur serveur chez Apple il y a quelques années et qui a trouvé l'idée ridicule.

Les raisons non techniques sont encore plus fortes :

Facebook dit qu'il ne fait pas ça. Le risque pour leur réputation s’ils sont pris en flagrant délit de mensonge est astronomique.
Comme pour de nombreuses théories du complot, trop de gens devraient être « au courant » et ne pas dénoncer.
Facebook n’a pas besoin de faire cela : il existe des moyens beaucoup plus économiques et plus efficaces de cibler des publicités sur vous que d’espionner via votre microphone. Ces méthodes fonctionnent incroyablement bien depuis des années.
Facebook nous montre des milliers de publicités par an. 99 % d’entre elles ne correspondent en rien à ce que nous avons dit à voix haute. Si vous continuez à lancer les dés assez longtemps, une coïncidence finira par se produire.

Mais voilà : aucun de ces arguments n’a d’importance.

Si vous avez déjà vu Facebook vous montrer une publicité pour quelque chose dont vous parliez à voix haute quelques instants plus tôt, vous avez déjà rejeté tout ce que je viens de dire. Vous avez personnellement fait l’expérience de preuves anecdotiques qui annulent tous mes arguments ici.

Le problème clé ici est le même que celui de la formation OpenAI : les gens ne croient pas ces entreprises lorsqu’elles disent qu’elles ne font pas quelque chose.

Une différence intéressante ici est que dans l’exemple de Facebook, les gens disposent de preuves personnelles qui leur font croire qu’ils comprennent ce qui se passe.

Avec l’IA, nous avons presque tout le contraire*: les modèles d’IA sont d’étranges boîtes noires, construites en secret et sans aucun moyen de comprendre quelles étaient les données d’entraînement ou comment elles influencent le modèle.

Sources : Dropbox (1, 2, 3, 4), Simon Willison

Et vous ?

Que pensez-vous du déploiement d'une telle fonctionnalité de la part de Dropbox ? De son partenariat avec OpenAI et de sa communication à ce sujet ?

Lorsqu'une entreprise, fut-elle Dropbox, assure qu'elle ne va conserver vos données que pendant 30 jours, lui faites-vous systématiquement confiance ? Dans quelle mesure ?

Comprenez-vous les craintes formulées à ce sujet ?