Les crawlers IA deviennent un casse-tête pour Wikipédia

Publié le 07 avr. 2025 à 18:00

Face à la multiplication des bots d'intelligence artificielle, Wikipédia se retrouve confrontée à des ralentissements et des coûts accrus, affectant l'expérience des lecteurs.

Tl;dr

Wikipédia subit une forte hausse du trafic généré par des bots d’intelligence artificielle, causant des ralentissements d’accès pour les utilisateurs humains.
Ces crawlers consomment une grande quantité de ressources, augmentant les coûts de fonctionnement de la fondation.
Wikipédia cherche des solutions pour gérer ce trafic massif tout en maintenant un accès fluide et durable pour ses utilisateurs.

L’explosion du trafic lié aux crawlers IA

Depuis janvier 2024, le trafic sur les serveurs de la Fondation Wikimédia a augmenté de 50%, mais cette hausse ne provient pas des utilisateurs humains. En réalité, cette augmentation est attribuée à des crawlers automatisés, des bots qui scrutent les contenus de Wikipédia et de Wikimedia Commons pour entraîner des modèles d’intelligence artificielle générative. Ces bots accèdent massivement aux images, vidéos, articles et autres fichiers librement accessibles sur la plateforme, ce qui engorge les serveurs. Cette situation pourrait entraîner des ralentissements importants, notamment en période de forte demande, comme lors d’événements d’actualité.

Les conséquences pour les utilisateurs

Les crawlers IA posent des problèmes sérieux pour les utilisateurs humains qui cherchent à accéder à des articles ou à des vidéos spécifiques sur Wikipédia. L’augmentation du trafic robotisé ralentit considérablement le temps de chargement des pages, surtout pendant des événements médiatiques très médiatisés. Par exemple, lors du décès de Jimmy Carter en décembre 2023, la demande pour visionner une vidéo de son débat présidentiel a créé une surcharge. Normalement, Wikipédia est équipée pour gérer ces pics de trafic causés par des lecteurs humains, mais le volume généré par les crawlers dépasse largement ce qui est habituellement attendu.

La gestion des ressources et des coûts

Le modèle de cache de Wikipédia, conçu pour répondre rapidement aux demandes populaires, est perturbé par les crawlers. Les pages souvent consultées sont mises en cache dans des centres de données locaux, ce qui permet un accès plus rapide. En revanche, les pages moins demandées doivent être servies à partir du centre de données principal, ce qui consomme plus de ressources et augmente les coûts. Les crawlers, qui accèdent à une grande variété de pages, y compris les moins populaires, entraînent une utilisation excessive des ressources et des coûts supplémentaires pour la fondation.

La réponse de Wikimédia et ses projets futurs

Face à cette situation, la Fondation Wikimédia a signalé que 65% du trafic de son site provient désormais des bots. Ces derniers perturbent le travail de l’équipe de fiabilité du site, qui doit constamment les bloquer pour éviter que l’accès aux contenus ne soit affecté. De plus, la fondation souligne qu’une grande partie de cette augmentation du trafic s’est faite sans attribution adéquate, ce qui nuit à la visibilité et à l’engagement des utilisateurs humains. La Wikimedia Foundation cherche désormais des solutions durables pour permettre aux développeurs et aux utilisateurs de continuer à accéder à ses contenus sans perturber l’expérience des véritables lecteurs.