Ce texte est une traduction d’un article de Ashley Belanger intitulé « AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt » et publié sur le site web « Ars Technica » le 28 janvier 2025.
***
Des attaquants expliquent comment une mesure de lutte contre les spam est devenue une arme contre l’intelligence artificielle.
L’été dernier, Anthropic a suscité le mécontentement lorsque son robot ClaudeBot AI a été accusé de harceler des sites web un million de fois ou plus par jour.
Et ce n’est pas la seule entreprise d’intelligence artificielle qui a fait les gros titres pour avoir prétendument ignoré les instructions contenues dans les fichiers robots.txt afin d’éviter la récupération de contenu web sur certains sites. À peu près au même moment, le PDG de Reddit a dénoncé toutes les entreprises d’intelligence artificielle dont les robots d’exploration étaient, selon lui, « difficiles à bloquer », bien que l’industrie technologique se soit par ailleurs engagée à respecter les instructions « no scraping » (pas de récupération) des fichiers robots.txt.
Un développeur de logiciels (que nous appellerons Aaron), à qui Ars a accordé l’anonymat pour discuter de son développement de logiciels malveillants, a suivi le déroulement de la controverse. Peu après avoir remarqué que le crawler de Facebook dépassait les 30 millions de visites sur son site, Aaron a commencé à élaborer un nouveau type d’attaque contre les crawlers qui « malmènent » les sites web, en espérant, a-t-il dit à Ars, donner « du mordant » à son fichier robots.txt.
S’inspirant d’une tactique de cybersécurité anti-spam connue sous le nom de tarpitting (répulsion), il a créé Nepenthes, un logiciel malveillant nommé d’après une plante carnivore qui « dévore à peu près tout ce qui s’aventure en son sein ».
Aaron avertit clairement les utilisateurs que Nepenthes est un logiciel malveillant agressif. Il ne doit pas être déployé par les propriétaires de sites qui ne sont pas à l’aise avec le fait de piéger des robots d’indexation et de les envoyer dans un « labyrinthe infini » de fichiers statiques sans liens de sortie, où ils « restent coincés » et « tournent en rond » pendant des mois, explique-t-il aux utilisateurs. Une fois piégés, les robots peuvent être alimentés en données bidon, appelées « Markov babble », qui sont conçues pour empoisonner les modèles d’IA. Il s’agit probablement d’une fonction bonus attrayante pour les propriétaires de sites qui, comme Aaron, en ont assez de payer pour le scraping de l’IA et aimeraient simplement voir l’IA brûler.
Les tarpits étaient à l’origine conçus pour faire perdre du temps et des ressources aux spammeurs, mais des créateurs comme Aaron ont transformé cette tactique en une arme anti-AI. À l’heure où nous écrivons ces lignes, Aaron a confirmé que Nepenthes peut piéger efficacement tous les principaux robots d’exploration du web. Jusqu’à présent, seul le crawler d’OpenAI a réussi à y échapper.
On ne sait pas exactement quels dommages les tarpits ou d’autres attaques de l’IA peuvent causer en fin de compte. En mai dernier, Laxmi Korada, directeur de la technologie des partenaires de Microsoft, a publié un rapport détaillant la manière dont les principales entreprises d’IA faisaient face à l’empoisonnement, l’une des premières tactiques de défense de l’IA déployées. Il a noté que toutes les entreprises ont développé des contre-mesures d’empoisonnement, OpenAI « ayant été très vigilant » et excellant dans la détection des « premiers signes de tentatives d’empoisonnement des données ».
Malgré ces efforts, il a conclu que l’empoisonnement des données constituait « une menace sérieuse pour les modèles d’apprentissage automatique ». Et en 2025, le tarpitting représente une nouvelle menace, augmentant potentiellement les coûts des données récentes à un moment où les entreprises d’IA investissent massivement et se font concurrence pour innover rapidement tout en réalisant rarement des bénéfices importants.
« Un lien vers Nepenthes depuis votre site l’inondera d’URL valides liées à votre nom de domaine, ce qui rendra peu probable l’accès du robot au contenu réel », explique la documentation de Nepenthes.
La seule entreprise spécialisée dans l’IA qui a répondu à la demande de commentaire d’Ars est OpenAI, dont le porte-parole a confirmé qu’elle travaillait déjà sur un moyen de lutter contre le tarpitting.
« Nous sommes conscients des efforts déployés pour perturber les robots d’indexation de l’IA », a déclaré le porte-parole d’OpenAI. « Nous concevons nos systèmes de manière à ce qu’ils soient résistants tout en respectant le fichier robots.txt et les bonnes pratiques du web ».
Mais pour Aaron, il ne s’agit pas de vaincre. Il s’agit plutôt d’empêcher l’industrie de l’IA de continuer à détériorer Internet avec des technologies que personne n’a demandées, comme les chatbots qui remplacent les agents du service clientèle ou l’augmentation des résumés de recherche inexacts de l’IA. En publiant Nepenthes, il espère faire autant de dégâts que possible, en augmentant éventuellement les coûts d’apprentissage des IA des entreprises, en ralentissant ces efforts d’apprentissage ou même en accélérant l’effondrement du modèle, les tarpits aidant à retarder la prochaine vague d’enshittification.
« En fin de compte, c’est comme si l’Internet sur lequel j’ai grandi et que j’aimais avait disparu depuis longtemps », a déclaré Aaron à Ars. « J’en ai tout simplement marre, et vous savez quoi ? Luttons, même si nous n’y parvenons pas. Soyez indigestes. Faites pousser des épines ».
Nepenthes inspire instantanément un autre tarpit
Nepenthes est sorti à la mi-janvier mais a connu un succès qui allait au-delà des attentes d’Aaron après que le journaliste technique Cory Doctorow ait boosté un commentateur technique, Jürgen Geuter, faisant l‘éloge de la nouvelle méthode d’attaque de l’IA sur Mastodon. Très rapidement, Aaron a été surpris de voir l’engagement pour Nepenthes monter en flèche.
« C’est à ce moment-là que j’ai réalisé que cela allait devenir quelque chose », a déclaré Aaron à Ars. « Je suis un peu ébahi par l’ampleur qu’a pris le projet ».
Il est difficile de savoir jusqu’à quel point Nepenthes a été déployé. Les propriétaires de sites sont invités à ne pas signaler le déploiement du logiciel malveillant, ce qui oblige les robots à faire face à des « conséquences » inconnues s’ils ignorent les instructions du fichier robots.txt.
Aaron a déclaré à Ars que, bien qu’une « poignée » de propriétaires de sites aient pris contact avec lui et que « la plupart des gens restent discrets à ce sujet », les journaux de son serveur web indiquent que des personnes déploient déjà l’outil. Il est probable que les propriétaires de sites souhaitent protéger leur contenu, empêcher le scraping ou se frotter aux sociétés d’intelligence artificielle.
Lorsque Gergely Nagy, développeur et hacker, qui se fait appeler « algernon » en ligne, a découvert Nepenthes, il était ravi. À l’époque, Nagy avait expliqué à Ars que la quasi-totalité de la bande passante de son serveur était « dévorée » par des robots d’indexation.
Bloquant déjà le scraping et tentant d’empoisonner les modèles d’IA par une méthode plus simple, Nagy a poussé sa méthode de défense plus loin et a créé son propre tarpit, Iocaine. Il a expliqué à Ars que le tarpit avait immédiatement éliminé environ 94 % du trafic de robots sur son site, qui provenait principalement de robots d’indexation d’IA. Rapidement, les discussions sur les médias sociaux ont poussé les utilisateurs à s’informer sur le déploiement d’Iocaine, non seulement des particuliers mais aussi des organisations désireuses de prendre des mesures plus strictes pour bloquer le scraping.
Iocaine reprend des idées (pas le code) de Nepenthes, mais il a davantage l’intention d’utiliser le tarpit pour empoisonner les modèles d’IA. Nagy a utilisé un « reverse proxy » pour piéger les robots dans un « labyrinthe infini de contenu pourri » afin d’empoisonner lentement leur collecte de données pour avoir osé ignorer le fichier robots.txt.
Tirant son nom de « l’un des poisons les plus mortels connus de l’homme » dans The Princess Bride, l’iocaïne est décrite avec humour comme le « poison connu le plus mortel pour l’IA ». Bien qu’il n’y ait aucun moyen de vérifier cette affirmation, la devise de Nagy est que plus il y a d’attaques par empoisonnement, « plus on rit ». Il a expliqué à Ars que les principales raisons qui l’ont poussé à créer Iocaine étaient d’aider les détenteurs de droits à cloisonner les contenus de valeur et à empêcher les robots d’indexation de l’IA de les explorer sans relâche.
Les tarpits ne sont pas des armes parfaites contre l’IA
L’exécution de logiciels malveillants tels que Nepenthes peut également peser sur les serveurs. Aaron a comparé le coût de fonctionnement de Nepenthes à celui d’une machine virtuelle bon marché sur un Raspberry Pi, et Nagy a déclaré qu’empoisonner les robots avec Iocaine lui coûtait à peu près autant que son site web.
Mais Aaron a déclaré à Ars que la consommation de ressources de Nepenthes est la principale objection qu’il s’est vue opposer à son déploiement. Les détracteurs craignent que le déploiement à grande échelle de Nepenthes n’alourdisse pas seulement leurs serveurs, mais augmente également les coûts énergétiques de toute cette IA qui travaille pour rien.
« C’est ce qui semble les inquiéter le plus », a déclaré Aaron à Ars. « La quantité d’énergie requise par les modèles d’IA est déjà astronomique, et je ne fais qu’empirer les choses. Mon point de vue est le suivant : si je ne fais rien, les modèles d’IA font bouillir la planète. Si je lance ça, ils font bouillir la planète. En quoi est-ce ma faute ? »
Aaron se défend également contre cette critique en suggérant qu’un impact plus large pourrait ralentir suffisamment les investissements dans l’IA pour finalement freiner une partie de cette consommation d’énergie. Peut-être qu’en raison de cette résistance, les entreprises d’IA seront poussées à demander d’abord l’autorisation de récupérer des données ou à accepter de payer davantage de créateurs de contenu pour s’entraîner sur leurs données.
« Chaque fois qu’un de ces robots se sort de mon tarpit, il a consommé des ressources qui lui coûteront en espèces sonnantes et trébuchantes, mais comme il s’agit de données merdiques, l’argent qu’il a dépensé pour les obtenir ne sera pas remboursé par les revenus », a posté Aaron, expliquant sa tactique en ligne. « Cela augmente effectivement leurs coûts. Et comme aucun d’entre eux n’a encore fait de bénéfices, c’est un gros problème pour eux. L’argent des investisseurs ne se déversera pas éternellement sans qu’ils soient payés. »
Nagy reconnaît que plus il y a d’attaques anti-AI, plus elles ont de chances d’avoir un impact. En publiant Iocaine, Nagy a montré que les discussions sur les médias sociaux à propos de nouvelles attaques peuvent inspirer de nouveaux outils en l’espace de quelques jours. Marcus Butler, un développeur de logiciels indépendant, a lui aussi conçu en quelques jours son attaque par empoisonnement baptisée Quixotic, a-t-il expliqué à Ars. Peu après, il a reçu des messages d’autres personnes qui ont créé leur propre version de son outil.
Butler n’est pas dans le camp de ceux qui veulent détruire l’IA. Il a déclaré à Ars qu’il ne pensait pas que « des outils comme Quixotic (ou Nepenthes) allaient « réduire l’IA en cendres » ». Il adopte plutôt une position plus mesurée, suggérant que « ces outils offrent une petite protection (une très petite protection) contre les robots qui s’emparent du contenu et, disons, le rediffusent ou l’utilisent à des fins d’apprentissage ».
Mais pour une certaine frange d’internautes, chaque petite protection compte. M. Geuter a renvoyé Ars à une liste d’outils destinés à saboter les IA. En fin de compte, il s’attend à ce que des outils comme Nepenthes ne soient « probablement pas utiles à long terme » parce que les entreprises d’IA peuvent probablement détecter et éliminer les données empoisonnées de l’entraînement. Mais Nepenthes représente un changement radical, a déclaré M. Geuter à Ars, en fournissant un outil utile aux personnes qui « se sentent impuissantes » face à une aspiration sans fin des données et en montrant que « le récit selon lequel il n’y a pas d’alternative ou de choix est faux ».
Critique des tarpits en tant qu’armes anti-IA
Les critiques qui ont débattu de l’utilité de Nepenthes sur Hacker News ont suggéré que la plupart des crawlers d’IA pouvaient facilement éviter les tarpits comme Nepenthes, un commentateur décrivant l’attaque comme étant « très crawler 101 ». Aaron indique que c’est son « commentaire préféré » parce que si les tarpits sont considérés comme des attaques d’un niveau élémentaire, il a « 2 millions de lignes de journal d’accès qui montrent que Google n’a pas été diplômé ».
Mais les efforts visant à empoisonner l’IA ou à gaspiller ses ressources ne concernent pas uniquement l’industrie technologique. Les gouvernements du monde entier cherchent à tirer parti de l’IA pour résoudre des problèmes sociétaux, et les attaques contre la résilience de l’IA semblent menacer ces progrès.
Nathan VanHoudnos est chercheur principal en sécurité de l’IA au sein de la division CERT de l’institut de génie logiciel de l’université Carnegie Mellon, qui travaille en partenariat avec les universités, l’industrie, les forces de l’ordre et le gouvernement pour « améliorer la sécurité et la résilience des systèmes et des réseaux informatiques ». Il a expliqué à Ars que les nouvelles menaces telles que les tarpits semblent reproduire un problème dont les entreprises d’IA sont déjà bien conscientes , à savoir que « certaines des choses que vous allez télécharger sur Internet pourraient être néfastes pour vous ».
« Il semble que ces créateurs de tarpits veuillent surtout mettre un peu le bazar », a déclaré M. VanHoudnos. « Ils veulent rendre un peu plus difficile pour ces personnes l’obtention des données meilleures ou différentes » qu’elles recherchent.
En août dernier, M. VanHoudnos a cosigné un article sur l’anti-IA, soulignant que les attaquants comme Aaron et Nagy sont limités dans leur capacité à manipuler les modèles d’IA. Ils peuvent avoir « une influence sur les données d’entraînement collectées, mais ne peuvent pas contrôler la manière dont les données sont étiquetées, avoir accès au modèle entraîné ou au système d’IA », indique l’article.
En outre, les sociétés d’IA se tournent de plus en plus vers le « deep web » pour trouver des données uniques, de sorte que cet effort visant à cloisonner les contenus utiles à l’aide de tarpits pourrait survenir pile au moment où l’exploration du web de surface commence à ralentir, a suggéré M. VanHoudnos.
Mais selon M. VanHoudnos, les robots d’IA sont également « relativement bon marché », et les entreprises risquent de ne pas accorder la priorité à la lutte contre les nouvelles attaques contre leurs robots si « des actifs plus prioritaires » font l’objet d’attaques. Et le tarpitting « doit être pris au sérieux parce qu’il s’agit d’un outil dans une boîte à outils tout au long du cycle de vie de ces systèmes . Il n’y a pas de solution miracle, mais c’est un outil intéressant dans une boîte à outils », a-t-il déclaré.
Offrir la possibilité de ne pas participer à l’apprentissage des IA
Aaron a déclaré à Ars qu’il n’avait jamais eu l’intention de faire de Nepenthes un projet majeur, mais qu’il travaillait occasionnellement à la correction de bugs ou à l’ajout de nouvelles fonctionnalités. Il envisagerait de travailler sur des intégrations pour des réactions en temps réel face aux robots s’il y avait une demande suffisante.
Aaron pressent que Nepenthes pourrait surtout être attrayant pour les détenteurs de droits qui veulent que les entreprises d’IA paient pour la récupération de leurs données. De nombreuses personnes semblent enthousiastes à l’idée de l’utiliser pour renforcer leur fichier robots.txt. Mais « certaines des personnes les plus intéressantes sont de celles qui pratiquent « la politique de la terre brûlée », a déclaré M. Aaron. Ces personnes sont attirées par des outils tels que Nepenthes comme un acte de rébellion contre l’IA qui rend l’Internet moins utile et moins agréable pour les utilisateurs.
M. Geuter a déclaré à Ars qu’il considérait Nepenthes « plus comme une déclaration sociopolitique que comme une solution technologique (parce que le problème qu’il tente de résoudre n’est pas purement technique, il est social, politique, juridique, et nécessite des leviers bien plus importants) ».
Pour M. Geuter, informaticien qui écrit depuis vingt ans sur l’impact social, politique et structurel de la technologie, l’IA est l’exemple « le plus agressif » de « technologies qui ne sont pas faites « pour nous » mais « malgré nous » ».
« C’est un peu comme si le contrat social entre la société et le secteur technologique/ingénierie (vous construisez des choses utiles, et nous sommes d’accord pour que vous en tiriez bénéfice) avait été dénoncé par une des parties », a déclaré M. Geuter. « Et cette partie veut maintenant que son jouet mange le monde. Les gens se sentent menacés et veulent que les menaces cessent ».
Une étude réalisée en 2021 a montré que des attaques par empoisonnement de données de plus en plus puissantes, par exemple, étaient capables de briser les défenses d’assainissement des données. Que ces attaques puissent ou non causer des destructions significatives, M. Geuter considère les tarpits comme un « symbole puissant » de la résistance à laquelle Aaron et Nagy ont volontiers adhéré.
« Il est très encourageant de voir que les gens remettent en question l’idée que nous devons tous nous mettre à l’IA », a déclaré M. Geuter. « Car ce n’est pas le cas. C’est un choix. Un choix qui profite principalement aux monopoles ».
Les créateurs de tarpits comme Nagy vont probablement être attentifs à l’évolution technique des attaques par empoisonnement. Sur le site Iocaïne – qui, oui, est protégé du scraping par Iocaïne – il a publié cet appel à l’action : « Faisons en sorte que l’empoisonnement des IA devienne la norme. Si nous le faisons tous, ils n’auront plus rien à aspirer ».