Cloudflare alerte sur les méthodes opaques de Perplexity

Perplexity est au cœur d’une controverse après des accusations de collecte abusive de données web.
Tl;dr
- Perplexity est accusée par Cloudflare de collecter illégalement des données en contournant les interdictions de nombreux sites.
- La méthode critiquée consiste à masquer ses robots en changeant leur identité pour passer inaperçus.
- Cette polémique relance le débat sur les pratiques des IA et pourrait accélérer l’adoption de régulations anti-scraping.
Polémique autour de la collecte de données par Perplexity
La tempête ne faiblit pas pour Perplexity, un nom qui résonne fortement dans le secteur de l’intelligence artificielle. Peu après avoir dévoilé son navigateur Comet, pionnier du « agentic browsing », l’entreprise se retrouve au cœur d’une controverse, pointée du doigt par Cloudflare, poids lourd de la sécurité web.
Cloudflare tire la sonnette d’alarme
C’est dans un billet publié en ligne que Cloudflare a mis les pieds dans le plat : selon ses propres recherches, Perplexity aurait ignoré les instructions explicites de milliers de sites interdisant tout « scraping ». Pis encore, la société est soupçonnée d’avoir volontairement brouillé les pistes. « Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour. Nous avons pu identifier ce crawler grâce à une combinaison d’apprentissage automatique et de signaux réseau », avance Cloudflare. Pour étayer ses propos, l’entreprise a créé des domaines factices, leur appliquant un refus clair d’accès aux robots d’indexation. Pourtant, interrogée via Perplexity, la plateforme a fourni des réponses prouvant qu’elle avait bel et bien exploré ces pages.
Méthodes contestées et réponse sous tension
Le cœur du litige ? Le changement du « user agent » des robots Perplexity. Cette manœuvre permettrait à l’IA de se faire passer pour un visiteur lambda plutôt que pour une intelligence artificielle. Une méthode qui inquiète d’autant plus que nombre d’autres outils IA s’appuient aussi massivement sur le contenu du web – forums, sites spécialisés ou pages classiques – pour affiner leurs algorithmes. Face à cette situation, certains concurrents comme Claude ou ChatGPT offrent déjà aux éditeurs des options claires pour refuser ce type d’indexation.
Du côté de Perplexity, la riposte ne s’est pas fait attendre : sa porte-parole, Jesse Dwyer, conteste formellement les accusations en arguant que « les captures d’écran publiées montrent qu’aucun contenu n’a été accédé et que le robot cité n’est même pas le nôtre. »
L’avenir incertain du web face aux IA prédatrices ?
La situation n’en demeure pas moins tendue. Selon Cloudflare, le développement effréné des IA menace l’équilibre économique du web en siphonnant son contenu sans contrepartie. Déjà accusé auparavant de plagiat ou d’utilisation abusive d’informations issues de sites d’actualité, Perplexity voit ici ressurgir le débat brûlant autour de la transparence et des pratiques éthiques dans l’écosystème IA.
Au fil des mois à venir, plusieurs tendances devraient s’accentuer :
- Nouvelles régulations sur le scraping automatisé.
- Systèmes renforcés permettant aux sites de refuser l’accès aux IA.
- Poussée générale vers davantage de clarté dans les processus d’entraînement des modèles.
Reste à voir si ces évolutions suffiront à restaurer la confiance entre éditeurs et géants du numérique.