De nombreuses entreprises d'IA ignorent le fichier robots.txt et récupèrent le contenu des sites Web

**Mathis Lucas** · 24/06/2024, 09h45

De nombreuses entreprises spécialisées dans l'IA ignorent le fichier robots.txt et récupèrent le contenu des sites Web
selon une société spécialisée dans la concession de licences

TollBit, une startup spécialisée dans la concession de licences de contenu, avertit les éditeurs que de nombreuses entreprises d'IA ne tiennent pas compte des instructions du fichier robots.txt et récupère le contenu des sites Web sans autorisation. Le fichier robots.txt, un standard largement accepté sur le Web depuis des décennies, est utilisé par les opérateurs pour interdire aux robots d'indexation des entreprises d'IA d'explorer leurs sites Web. Mais les entreprises contournent ces restrictions et récupèrent leurs contenus pour former leurs modèles. Ce qui suscite des questions éthiques et laisse les opérateurs sans une solution pour protéger leurs sites Web.

Le protocole d'exclusion des robots (REP), plus connu sous le nom de robots.txt, est l'un des composants les plus basiques et essentiels du Web. Il permet aux opérateurs de sites Web d'indiquer aux robots d'exploration qu'ils ne veulent pas que leurs données soient récupérées et collectées. Les instructions du fichier robots.txt peuvent concerner quelques parties ou l'ensemble d'un site Web. Le protocole a été proposé en 1994 par Martijn Koster, ingénieur logiciel néerlandais, après que des robots d'exploration ont submergé son site. Par convention, les robots consultent le fichier robots.txt avant d'indexer un site Web.

Ce faisant, les robots d'indexation prennent l'information et déterminent s'ils sont autorisés à consulter les pages du site, et à récupérer leur contenu. Mais de plus en plus de rapports signalent que les entreprises spécialisées dans l'IA sont en train de faire voler en éclat cette règle acceptée de tous depuis trois décennies. TollBit a récemment adressé une lettre aux éditeurs pour les avertir du fait que de nombreuses entreprises d'IA contournent désormais le fichier robots.txt afin de récupérer les contenus de leurs sites d'IA. Elles utilisent ensuite ces informations dans la formation de leurs grands modèles de langage (LLM).

Nom : vlog22_still_image_new-homepage.jpg
Affichages : 5911
Taille : 85,8 Ko

L'avènement de l'IA générative et l'exploration sauvage du Web par les entreprises d'IA, comme OpenAI et Google, pour récupérer des données nécessaires à la formation de leurs modèles d'IA ont poussé les opérateurs à faire appel au fichier robots.txt pour bloquer les robots d'indexation de ces géants. Les éditeurs tentent d'utiliser ce protocole pour bloquer l'utilisation non autorisée de leurs contenus. Mais l'appétit de l'IA pour les données incite les entreprises à contourner ou à ignorer les instructions du fichier robots.txt. TollBit a constaté que plusieurs entreprises agissaient de la sorte, sans toutefois les citer nommément.

TollBit n'a pas non plus cité les éditeurs qui ont déjà été impactés par les agissements des entreprises d'IA. Mais la lettre de TollBit aux éditeurs intervient après qu'un conflit public a éclaté entre Perplexity AI et plusieurs éditeurs et opérateurs de sites Web, comme Forbes et le développeur de MacStories Rob Knight. Forbes accuse Perplexity AI, qui se décrit comme un moteur de recherche basé sur l'IA, d'utiliser ses articles d'investigation dans des résumés générés par l'IA sans attribution ou autorisation appropriée. Perplexity n'a pas commenté ces allégations et l'on ne sait pas si Forbes envisage d'intenter une action en justice.

Rob Knight, un développeur qui tient un blogue sur la technologie, a récemment tenté d'empêcher Perplexity AI d'explorer les pages de son site Web. Pour cela, il a ajouté des instructions dans le fichier robots.txt de son blogue afin de bannir PerplexityBot, qui est censé être l'agent utilisateur de Perplexity AI. Pour vérifier si le blocage fonctionnait, Knight a collé l'URL de son article de blogue dans Perplexity AI et a demandé : "quel est cet article ?" Cependant, Perplexity AI a extrait de l'article de blogue des informations auxquelles il ne devrait pas avoir accès (il venait juste d'être banni) et a généré un résumé avec plusieurs détails.

Une enquête distincte de Wired a révélé que Perplexity AI avait probablement contourné les efforts visant à bloquer son robot d'exploration via le fichier robots.txt. Perplexity AI prétend que son agent utilisateur devrait apparaître sous le nom de "PerplexityBot", mais Knight a rapporté qu'en réalité, le vrai agent utilisateur est dissimulé, parcourt les pages Web discrètement et récupère leurs contenus sans y être autorisé. Une recherche plus approfondie a révélé que Perplexity AI utilise un navigateur sans interface utilisateur (headless browser - navigateur sans tête) pour récupérer du contenu, sans tenir compte du fichier robots.txt.

La News Media Alliance, un groupe commercial représentant plus de 2 200 éditeurs aux États-Unis et au Canada, s'est inquiétée de l'impact que pourrait avoir sur ses membres le fait d'ignorer les signaux "do not crawl" (ne pas explorer). « Si nous n'avons pas la possibilité de nous désengager de l'exploration massive, nous ne pourrons pas monétiser notre précieux contenu et payer les journalistes. Cela pourrait gravement nuire à notre industrie », a déclaré Danielle Coffey, présidente du groupe. À l'heure actuelle, les administrateurs de sites Web ne semblent avoir aucun moyen d'empêcher les entreprises d'IA d'agir de la sorte.

TollBit se positionne comme un intermédiaire entre les entreprises d'IA avides de données et les éditeurs prêts à conclure des accords de licence avec elles. La startup suit le trafic de l'IA sur les sites Web des éditeurs et utilise les données analytiques pour aider les deux parties à s'entendre sur les frais à payer pour l'utilisation de différents types de contenu. TollBit indique sur son site Web que les éditeurs peuvent choisir de fixer des tarifs plus élevés pour les "contenus de qualité supérieure, tels que les dernières nouvelles ou des informations exclusives". Selon la lettre de TollBit, Perplexity n'est pas le seul concerné.

« Ce que cela signifie concrètement, c'est que des agents d'IA provenant de sources multiples (et non d'une seule entreprise) choisissent de contourner le protocole robots.txt pour récupérer le contenu des sites. Plus nous ingérons de journaux d'éditeurs, plus ce modèle émerge », a écrit TollBit. Certains éditeurs ont choisi de conclure des accords de licence. OpenAI a conclu quelques accords avec des éditeurs pour l'accès à leurs contenus, notamment avec Axel Springer, le propriétaire de Business Insider et Politico. D'autres éditeurs, comme le New York Times, ont porté plainte contre OpenAI pour violation de droit d'auteur.

Thomson Reuters fait partie de ceux qui ont conclu des accords de licence, autorisant l'utilisation de son contenu. Les éditeurs ont tiré la sonnette d'alarme au sujet des résumés d'actualité, en particulier depuis que Google a lancé l'année dernière un produit qui utilise l'IA pour créer des résumés en réponse à certaines requêtes de recherche. Si les éditeurs veulent empêcher que leur contenu soit utilisé par l'IA de Google pour générer ces résumés, ils doivent utiliser le même outil qui les empêcherait également d'apparaître dans les résultats de recherche de Google, ce qui les rendrait pratiquement invisibles sur le Web.

Le protocole robots.txt a été rapidement adopté comme un standard de facto du Web, mais n'a jamais été converti en une norme officielle. Ce qui signifie que les développeurs ont interprété le protocole de manière légèrement différente au fil des années. Par ailleurs, il n'a pas une valeur juridique et de nombreuses entreprises d'IA soutiennent qu'elles n'ont enfreint aucune loi en accédant gratuitement aux contenus des sites Web. Ce nouveau développement dans l'environnement Web suscite le mécontentement des administrateurs de sites, qui sont à la recherche d'une nouvelle solution pour protéger leurs contenus.

Source : lettre de TollBit

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du contournement du fichier robots.txt par les entreprises d'IA ?

Comment les éditeurs et les administrateurs de sites Web peuvent-ils faires face à ces agissements ?

Voir aussi

Perplexity AI, un moteur de recherche basé sur l'IA, semble mentir sur l'agent utilisateur qu'il envoie explorer les sites Web, il est dissimulé et ignore le fichier robot.txt pour extraire des informations

Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur lors de l'entraînement de ses modèles d'intelligence artificielle

Le New York Times affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4, violant ainsi les droits d'auteur des créateurs de la plateforme