Des développeurs de logiciels libres affirment que les robots d'IA dominent le trafic, forçant le blocage de pays entiers
les mesures défensives, comme le fichier robots.txt, s'avèrent inefficaces

La prolifération des robots d'IA avides de données et leurs pratiques d'exploration agressives soulèvent des défis majeurs pour les projets open source, déjà fragilisés par des ressources limitées. Les mesures défensives traditionnelles, comme le fichier robots.txt, s'avèrent inefficaces face à des robots d'indexations qui usurpent les agents utilisateurs, ignorent les restrictions ou exploitent des proxys résidentiels. Des solutions alternatives émergent, comme les systèmes de preuve de travail ou les pièges à contenu trompeur, mais elles présentent des inconvénients, notamment pour l'accessibilité ou l'expérience utilisateur.

Pourtant, les discussions autour de ces enjeux révèlent des tensions plus profondes. D'un côté, les entreprises d'IA, accusées de prédation, semblent privilégier la collecte massive de données au détriment de la viabilité des infrastructures qu'elles exploitent. De l'autre, la communauté open source, en manque de leviers juridiques ou techniques, se retrouve contrainte à des mesures radicales (blocages géographiques, challenges computationnels). Certains suggèrent même d'empoisonner volontairement les données des crawlers, une approche certes créative mais potentiellement problématique sur le plan éthique et légal.


Nom : Robottxt.PNG
Affichages : 4569
Taille : 5,5 Ko

Ces stratégies reflètent une course aux armements inégale, où l'asymétrie des ressources entre les géants de l'IA et les mainteneurs open source aggrave les risques pour l'écosystème numérique. Si des initiatives collaboratives comme ai.robots.txt tentent d'apporter des réponses structurelles, l'absence d'engagement clair des acteurs industriels et de régulation adaptée laisse présager une escalade destructrice. L'enjeu dépasse la simple bande passante : il questionne la pérennité d'un internet ouvert, où le respect mutuel entre humains et machines semble se dissoudre dans l'urgence de l'innovation.

Le fichier robots.txt : régulateur des bots sur le web

Un fichier robots.txt constitue un ensemble d'instructions destinées aux bots, intégré aux sources de la majorité des sites web. Ces fichiers servent principalement à encadrer l'activité des bots bienveillants, notamment les robots d'indexation, les bots malveillants ayant tendance à ignorer ces directives.

Cette mécanique peut s'apparenter à un panneau "Règlement intérieur" dans un espace public : bien qu'incapable d'imposer physiquement son respect, il sera suivi par les usagers de bonne foi tandis que les autres s'exposeront à des sanctions. Techniquement, un bot représente un programme automatisé interagissant avec les sites web. On distingue deux catégories :

  1. Les bots bénéfiques, comme les robots d'indexation qui parcourent le web pour référencer le contenu dans les moteurs de recherche
  2. Les bots malveillants, conçus pour des activités nuisibles

Le fichier robots.txt permet notamment de :

  • réguler l'activité des robots d'indexation ;
  • prévenir la surcharge des serveurs web ;
  • restreindre l'indexation des pages non destinées au public

Cette solution technique, bien que perfectible, reste essentielle pour maintenir un équilibre entre visibilité et contrôle dans l'écosystème web.

IA contre open source : la course aux armements qui menace l'internet libre

Le développeur Xe Iaso a été confronté à une crise majeure lorsque les robots d'indexation d'Amazon ont submergé son dépôt Git, provoquant des interruptions répétées de service. Malgré l'implémentation des protections standards comme la modification du fichier robots.txt, le blocage des agents utilisateurs connus et le filtrage des adresses IP suspectes, les crawlers d'IA ont continué à contourner ces mesures en utilisant des proxys résidentiels et en falsifiant leurs identifiants. Face à cette situation, Iaso a finalement opté pour une solution drastique en déployant son serveur derrière un VPN et en développant « Anubis », un système imposant aux visiteurs de résoudre un problème de calcul avant d'accéder au contenu. Dans un billet de blog intitulé « Un appel à l'aide désespéré », il a souligné l'inutilité des méthodes traditionnelles de blocage face à des robots qui masquent constamment leur origine et modifient leur comportement.

Ce cas illustre une problématique plus large affectant la communauté open source, où certains projets voient jusqu'à 97 % de leur trafic provenir de robots d'entreprises d'IA, selon un rapport de LibreNews. Cette situation équivaut à une attaque DDoS persistante, entraînant des surcoûts importants en bande passante, une instabilité des services et une pression accrue sur des mainteneurs déjà sursollicités. Plusieurs projets ont adopté des mesures extrêmes : Fedora Pagure a bloqué tout le trafic en provenance du Brésil, GNOME GitLab a implémenté le système Anubis avec des résultats montrant que 96,8% des requêtes étaient automatisées, et KDE a subi des interruptions de service causées par des crawleurs associés à Alibaba.

Citation Envoyé par Kevin Fenzi
Le problème des collecteurs de données IA (je suppose qu'il s'agit bien d'eux) n'a fait que s'aggraver ces derniers temps. La semaine dernière, pagure.io en a particulièrement souffert. Nous avons bloqué plusieurs sous-réseaux, mais il est extrêmement difficile de tout filtrer sans affecter les vrais utilisateurs - et effectivement, nous avons involontairement bloqué quelques utilisateurs légitimes. Ces cas ont été rapidement résolus, mais restent préoccupants.

Après analyse, j'ai constaté que la majorité des requêtes problématiques provenaient du Brésil. En dernier recours, j'ai donc instauré un blocage complet de cette zone géographique, ce qui a permis de rétablir des performances normales. Je sais pertinemment que ce n'est qu'une solution temporaire - je compte lever cette restriction dès que le trafic anormal diminuera (ce qui devrait se produire une fois que les collecteurs réaliseront l'inutilité de leurs tentatives).

À plus long terme, nous devons absolument trouver une meilleure approche. J'aimerais pouvoir consacrer du temps à configurer mod_qos pour garantir un accès prioritaire aux réseaux essentiels tout en limitant les autres. En attendant, j'ai augmenté la capacité CPU de la machine virtuelle hébergeant pagure.io, ce qui a apporté une légère amélioration.
Si le système Anubis s'est révélé efficace pour filtrer le trafic automatisé, il présente des inconvénients notables pour les utilisateurs légitimes, notamment des délais d'accès pouvant atteindre deux minutes sur mobile lorsque plusieurs personnes tentent d'accéder simultanément à une même ressource. Cette situation n'est pas nouvelle, comme en témoigne le constat de Dennis Schubert, responsable de l'infrastructure de Diaspora, qui dès décembre 2023 qualifiait ce phénomène de « DDoS sur l'ensemble d'Internet », avec 70% des requêtes attribuables à des entreprises d'IA. Les conséquences financières sont tangibles, comme le montre l'exemple du projet Read the Docs qui a réduit son trafic de 75% et économisé environ 1.500 dollars par mois en bloquant ces robots d'indexation.

En decembre 2024, deux familles ont engagé des poursuites contre Character.ai, considérant que ses services de chatbot présentent « un danger manifeste pour la jeunesse ». Selon la plainte, l'IA de l'entreprise "favoriserait la violence" et pourrait pousser des jeunes vers des actes irréversibles. Parmi les cas rapportés figurent des conversations où un chatbot aurait non seulement banalisé l'automutilation en affirmant que « ça fait du bien », mais aurait également présenté le meurtre parental comme « une réponse justifiée » à des limitations de temps passé devant les écrans. Ces échanges préoccupants mettent en lumière les potentielles défaillances des systèmes de protection censés encadrer ces interactions.

Cette crise met en lumière un déséquilibre croissant entre les besoins des entreprises d'IA en données et la capacité des projets open source à supporter cette pression, conduisant à une escalade de mesures défensives qui, bien que nécessaires, compliquent l'accès aux ressources pour les utilisateurs légitimes et alourdissent la charge des mainteneurs.

Origines et motivations derrière le scraping intensif des IA

Une culture du take first, ask never semble bien ancrée chez les géants de l'IA. Bien avant l'ère ChatGPT, le secteur collectait déjà massivement des données sans se préoccuper de leur provenance ni des droits associés. Aujourd'hui, si la plupart des entreprises pratiquent le scraping web, leurs méthodes et leur impact varient considérablement. Les logs de Diaspora analysés par Dennis Schubert révèlent une répartition éloquente :

  • 25 % du trafic provenait de bots OpenAI ;
  • 15 % d'Amazon ;
  • 4,3 % d'Anthropic.

Trois motivations principales émergent :

  1. Alimentation des modèles (collecte de données d'entraînement)
  2. Mises à jour en temps réel (pour les assistants IA)
  3. Rafraîchissement périodique des connaissances

Cette dernière hypothèse est corroborée par le comportement obsessionnel des crawlers : « Ils ne se contentent pas d'un passage unique, mais reviennent systématiquement toutes les 6 heures », note Schubert avec ironie.

  • Les acteurs occidentaux (OpenAI, Anthropic) utilisent généralement des user-agents identifiables ;
  • Certaines entreprises chinoises (comme Alibaba) emploient des méthodes plus opaques.

Particulièrement agressifs, les crawlers d'Alibaba ont paralysé GitLab de KDE, tandis qu'Amazon a saturé les serveurs de Xe Iaso. Reste une énigme : pourquoi ces entreprises persistent-elles dans des pratiques aussi invasives plutôt que d'établir des protocoles collaboratifs ? Aucun commentaire n'a été obtenu auprès d'Amazon, OpenAI, Anthropic ou Meta à ce jour.

La guerre silencieuse du web contre les robots prédateurs

La communauté technologique a développé plusieurs approches pour contrer le scraping intensif des IA. D'un côté, des outils comme Nepenthes adoptent une logique offensive : ce système, conçu par un développeur anonyme nommé Aaron, piège les robots dans des labyrinthes de faux contenus, augmentant délibérément leurs coûts opérationnels et corrompant leurs bases de données. "Chaque requête inutile grève leur budget", explique-t-il, soulignant la vulnérabilité financière de ces entreprises. De l'autre, des solutions plus conventionnelles comme AI Labyrinth de Cloudflare proposent une défense commerciale, détournant les crawlers vers des pages leurres sans bloquer complètement l'accès.

En parallèle, des initiatives communautaires tentent d'organiser une résistance collective. Le projet ai.robots.txt centralise les informations sur les robots malveillants et fournit des configurations prêtes à l'emploi pour les fichiers de restriction. Cette approche collaborative contraste avec l'isolement dans lequel opèrent la plupart des administrateurs système confrontés à ces attaques. Pourtant, malgré ces efforts, l'équilibre reste précaire : chaque nouvelle mesure défensive semble provoquer une adaptation des crawlers, dans une escalade technologique sans fin.

Cette situation crée un paradoxe inquiétant. Les modèles d'IA dépendent fondamentalement de l'accès à des données ouvertes et diversifiées, mais leurs méthodes de collecte menacent précisément l'existence même de ces ressources. Les serveurs open source, conçus pour le partage de connaissances, se retrouvent paradoxalement victimes de leur propre philosophie d'ouverture. Sans mécanismes de régulation ou de compensation, cette dynamique extractive risque à terme de tarir la source même qui alimente l'innovation en IA.

L'absence de dialogue constructif avec les grandes entreprises du secteur aggrave la crise. Alors que des solutions mutuellement bénéfiques pourraient être imaginées - licences payantes, quotas de scraping, partage des coûts infrastructurels - la plupart des acteurs dominants persistent dans des pratiques prédatrices. Cette impasse pose des questions fondamentales sur la soutenabilité à long terme du développement de l'IA, et plus largement sur l'équilibre entre innovation technologique et préservation des biens communs numériques. La communauté open source se trouve ainsi prise en tenaille entre sa vocation originelle de partage et la nécessité croissante de se protéger contre des utilisations abusives.


Le mythe de la solution technique contre le scraping invasif

La proposition d'empoisonnement actif des données (via des contenus fallacieux ou des pièges) soulève des questions éthiques et pratiques pertinentes. Si l'idée de créer une utilité négative pour les robots semble séduisante sur le papier - en décourageant économiquement le scraping sauvage - sa mise en œuvre concrète présente plusieurs écueils majeurs.

D'une part, les techniques d'évasion des crawlers sophistiqués (comme les requêtes différentielles ou le nettoyage des balises cachées) rendent cette approche vulnérable à un contournement rapide. La course aux armements techniques semble inégale : les ressources computationnelles et l'expertise des grandes entreprises d'IA leur permettent de s'adapter bien plus vite que les administrateurs de sites ne peuvent complexifier leurs pièges.

D'autre part, ces méthodes comportent des externalités négatives non négligeables. L'utilisation de liens invisibles ou de contenus empoisonnés nuit gravement à l'accessibilité numérique, pénalisant notamment les utilisateurs de lecteurs d'écran. De plus, elles risquent de dégrader la qualité générale du web en multipliant les contenus fallacieux - un paradoxe alors que la lutte contre la désinformation est déjà un défi majeur.

L'analyse révèle surtout un problème structurel : l'absence de cadre normatif contraignant. Le fichier robots.txt, conçu pour un web pré-IA, montre ses limites face à des acteurs qui le considèrent comme une simple suggestion. Pourtant, son principe de coopération volontaire reste précieux : il faudrait plutôt en renforcer le statut juridique et développer des mécanismes de vérification indépendants (comme des audits de conformité pour les crawlers majeurs). En réalité, la solution ne sera ni purement technique ni exclusivement défensive. Elle nécessitera :

  • une régulation imposant des limites de fréquence et des obligations de transparence ;
  • des modèles économiques incitant au respect (comme des micropaiements pour l'accès aux données) ;
  • une coopération renforcée entre les webmasters et les rares acteurs de l'IA ouverts au dialogue.

La situation actuelle, où chaque partie développe des contre-mesures toujours plus agressives, n'est viable ni pour les petites infrastructures open source ni pour la qualité future des modèles d'IA eux-mêmes. Plutôt qu'une guerre d'usure, c'est d'un nouveau pacte numérique dont le web a besoin.

Sources : Report from LibreNews, Software developer Xe Iaso in a blog post, Kevin Fenzi, a member of the Fedora in a blog post

Et vous ?

Quel est votre avis sur le sujet ?

Assiste-t-on à une privatisation rampante du web, où seuls les acteurs riches en ressources pourront protéger leurs données ?

Le développement actuel de l'IA menace-t-il inévitablement les fondements mêmes du web ouvert dont il dépend ?

Voir aussi :

Un chatbot de Character.ai a suggéré à un enfant de tuer ses parents pour lui avoir imposé « un temps d'écran limité », selon une plainte qui allègue que le service promeut activement la violence

Meta AI dépasse les 500 millions d'utilisateurs, car le chatbot est accessible dans les applications Meta, notamment Facebook, WhatsApp, Instagram, Messenger et l'application web, d'après Mark Zuckerberg

ChatGPT: le chatbot IA d'OpenAI débarque sous forme d'application en version gratuite sur iOS, votre historique sera synchronisé sur vos appareils