Des sites se servent de l'API AudioContext pour obtenir une empreinte audio des internautes
et pister les utilisateurs sans passer par les cookies
De nouvelles recherches dans le domaine du pistage en ligne ont conduit à l’identification de sites qui se servent de l’empreinte audio pour identifier un utilisateur.
Pour les besoins de leur étude, des chercheurs de l’université de Princeton ont analysé un million de sites web de catégories diverses (médias, arts, sports, divertissement adulte, informatique, spécialisé entreprises, etc.) avec 15 différents types de mesures parmi lesquels les pistages passifs (basés sur les cookies) et actifs (basés sur les empreintes numériques), les effets des outils de confidentialité des navigateurs ainsi que le partage de données de pistage entre différents sites (synchronisation de cookies). Ils se sont servis pour cela d’OpenWPM, un framework présenté comme étant un outil de mesure de confidentialité sur le web qui « facilite la collecte de données pour des études sur la confidentialité à une échelle pouvant aller de milliers de sites à des millions de sites ». Automatisé et conçu sur Firefox, l’outil dispose de plusieurs fonctionnalités comme un « hameçon » pour la collecte des données, un proxy ou un accès aux cookies Flash. Les codes du framework sont disponibles sur GitHub.
Durant leur analyse, les chercheurs ont trouvé bon nombre d’entre eux qui abusaient de l’API AudioContext pour identifier le signal audio qui révèle une combinaison unique navigateur - dispositif. À ce propos, les chercheurs expliquent que « les signaux audio traités sur des machines ou des navigateurs différents peuvent avoir de légers écarts causés par les différences matérielles ou logicielles entre les machines, tandis que la même combinaison de machine et de navigateur produira le même résultat ».
Le procédé ne nécessite pas l'accès au microphone d'un appareil, mais repose plutôt sur la façon dont un signal est traité. Les chercheurs, Arvind Narayanan et Steven Englehardt, ont publié une page de test pour montrer à quoi ressemblent les empreintes numériques audio de votre navigateur. Sur la page de test, ils avancent que « l’utilisation de l'API AudioContext d'empreintes digitales ne recueille pas le son joué ou enregistré par votre machine. Une empreinte AudioContext est une propriété de la pile audio de votre machine elle-même ».
Une technique qui n’est pas très populaire, mais qui peut efficacement être utilisée pour pister les utilisateurs en supposant que ceux-ci ne changent pas le matériel de leur PC, une configuration très souvent observée chez un utilisateur lambda. Sur certains sites, d’autres techniques sont utilisées pour améliorer le pistage. Par exemple l’utilisation de l’API WebRTC pour découvrir l’adresse IP de l’utilisateur a été faite sur des scripts de 715 sites parmi ceux de l’étude. Une autre technique a été l’utilisation de l’API HTML Canvass qui est utilisée pour déduire les polices de caractères installées sur un navigateur.
Parlant de l’empreinte générée par les Canvass, les chercheurs ont trouvé plus de 14 000 sites avec des scripts chargés depuis plus de 400 domaines. Ils ont analysé l’empreinte générée par les Canvass en 2014 et ont noté trois principaux changements qui sont survenus depuis : « tout d'abord, les traceurs les plus importants ont en général cessé d’être utilisés, ce qui suggère que la réaction du public suite à cette étude s’est avérée efficace. Ensuite, le nombre total de domaines l’employant a considérablement augmenté, ce qui indique que la connaissance de cette technique est encore plus répandue et que de plus en plus de traceurs ne se soucient guère de la perception du public sur le sujet. Et enfin, l'utilisation est passée d'un suivi comportemental à la détection de la fraude, ce qui s’aligne derrière la norme d’autorèglementation de l’industrie de la publicité en ce qui concerne les utilisations acceptables des empreintes numériques ».
Les traceurs de Google, Facebook et Twitter ont été les seuls traceurs tiers présents dans plus de 10 % des sites étudiés, ce qui suggère que le nombre de traceurs tiers rencontrés régulièrement par les internautes pourrait faire partie de ce triplet.
OpenWPM (GitHub)
Source : résultat de l'étude (au format PDF)
Partager