Questions de généralisation
Les modèles à grande échelle fonctionnent-ils en générant de nouvelles sorties, ou se contentent-ils de copier et d'interpoler entre des exemples de formation individuels*? Si nos attaques d'extraction avaient échoué, cela aurait peut-être réfuté l'hypothèse selon laquelle les modèles copient et interpolent les données d'apprentissage*; mais parce que nos attaques réussissent, cette question reste ouverte. Étant donné que différents modèles mémorisent des quantités variables de données, nous espérons que les travaux futurs exploreront comment les modèles de diffusion copient à partir de leurs ensembles de données de formation.
Nos travaux mettent également en évidence la difficulté de définir la mémorisation. Bien que nous ayons trouvé une mémorisation étendue avec une simple mesure, une analyse plus complète sera nécessaire pour capturer avec précision des définitions plus nuancées de la mémorisation qui apportent des notions de copie de données plus humaines.
Conséquences pratiques
Nous soulevons quatre conséquences pratiques pour ceux qui forment et déploient des modèles de diffusion. Tout d'abord, bien qu'il ne s'agisse pas d'une défense parfaite, nous recommandons de dédupliquer les ensembles de données d'entraînement et de minimiser le surentraînement. Deuxièmement, nous suggérons d'utiliser notre attaque ou d'autres techniques d'audit - pour estimer le risque de confidentialité des modèles entraînés. Troisièmement, une fois que des techniques pratiques de préservation de la vie privée deviennent possibles, nous recommandons leur utilisation dans la mesure du possible. Enfin, nous espérons que notre travail tempérera les attentes heuristiques en matière de confidentialité qui sont désormais associées aux résultats des modèles de diffusion*: les données synthétiques ne donnent pas la confidentialité gratuitement.
Dans l'ensemble, notre travail contribue à un corpus croissant de littérature qui soulève des questions concernant les problèmes juridiques, éthiques et de confidentialité qui découlent de la formation sur les données publiques récupérées sur le Web. Les chercheurs et les praticiens doivent se méfier de la formation sur des données publiques non conservées sans avoir d'abord pris des mesures pour comprendre les implications sous-jacentes en matière d'éthique et de confidentialité.
Partager