додому Dernières nouvelles et articles Une vague de trafic de robots inexpliqués déferle sur le Web

Une vague de trafic de robots inexpliqués déferle sur le Web

L’augmentation inexpliquée du trafic de robots en provenance de Chine submerge les sites Web du monde entier

Une vague mystérieuse de trafic Web automatisé, provenant principalement de Lanzhou, en Chine, inonde les sites Web du monde entier, laissant les opérateurs perplexes et à la recherche de solutions. À partir de septembre, une recrudescence de l’activité des robots a été signalée par les propriétaires de sites dans divers secteurs – des blogs paranormaux aux domaines du gouvernement américain – faussant les analyses, gonflant les coûts de bande passante et nuisant potentiellement aux revenus publicitaires.

Les visiteurs fantomatiques de Lanzhou

Alejandro Quintero, un analyste de données qui gère un site Web sur le thème du paranormal, a remarqué l’anomalie pour la première fois en octobre. Son site a connu une soudaine augmentation du trafic en provenance de Chine et de Singapour, représentant désormais plus de la moitié de ses visites totales. Les visiteurs, tous apparemment localisés à Lanzhou, ont présenté un comportement contre nature : aucun temps d’arrêt, aucun défilement, aucun clic. Cela a confirmé ses soupçons : le trafic n’était pas humain.

D’autres ont rapidement fait écho à l’expérience de Quintero. Un magazine de style de vie en Inde, un blog insulaire canadien, des sites de portfolio personnel, une plateforme météo comptant des millions de pages et même des domaines du gouvernement américain ont été touchés par le même schéma. Les analyses d’Analytics.usa.gov montrent qu’au cours des 90 derniers jours, Lanzhou et Singapour sont devenues les deux principales villes censées consommer des informations du gouvernement américain, représentant respectivement 14,7 % et 6,6 % des visites.

Qui est derrière le déluge ?

Même si le trafic provient d’adresses IP chinoises et singapouriennes, l’identification des acteurs reste difficile à identifier. Les robots n’ont pas été associés à des cyberattaques ou à des analyses de vulnérabilité, mais leur volume considérable provoque des perturbations. L’explication la plus plausible est la collecte de données par l’IA : des entreprises fouillent le Web pour former de grands modèles linguistiques.

Cependant, ces robots diffèrent des robots d’exploration IA classiques. Ils sont bien plus nombreux – représentant 22 % du trafic sur certains sites, contre moins de 10 % pour tous les autres robots IA réunis – et ils se déguisent activement, contournant les mécanismes courants de détection des robots. Contrairement aux laboratoires d’IA établis qui identifient souvent leurs robots, ces acteurs semblent déterminés à échapper aux blocages.

Gavin King, fondateur de Known Agents, a retracé le trafic via des serveurs appartenant aux principaux fournisseurs de cloud chinois, notamment Tencent (ASN 132203), Alibaba et Huawei. Il reste difficile de savoir si les robots proviennent d’opérations internes ou de clients utilisant ces serveurs.

Les coûts sont réels

Les robots ne semblent pas malveillants, mais leur impact est important. Les propriétaires de sites Web s’inquiètent des violations des droits d’auteur, de l’augmentation des coûts de bande passante et des analyses faussées. Pour ceux qui dépendent des revenus publicitaires, le trafic des robots peut pénaliser leurs revenus, car des plateformes comme Google AdSense peuvent dévaluer les sites inondés d’engagement artificiel.

“Cela détruit mes stratégies AdSense”, déclare Quintero. “Ils disent que [votre site Web est] uniquement visité par des robots, donc votre contenu n’a pas de valeur pour le spectateur.”

Solutions de fortune et avenir incertain

Sans solution immédiate en vue, les opérateurs de sites Web ont recours à des mesures ponctuelles. Le blocage des adresses IP chinoises et singapouriennes, le filtrage des anciennes versions de Windows et l’identification des résolutions d’écran inhabituelles font partie des stratégies improvisées partagées en ligne. Certains ont bloqué des ASN entiers associés aux principaux fournisseurs de cloud.

Bien qu’efficaces dans une certaine mesure, ces solutions sont temporaires. À mesure que les outils d’IA autonomes deviennent plus répandus, les propriétaires de sites Web seront probablement confrontés à des défis croissants pour distinguer le trafic légitime du scraping automatisé. En d’autres termes, le coût du maintien d’une présence en ligne augmente et la distinction entre activité humaine et activité machine s’estompe.

La prolifération du scraping piloté par l’IA souligne une vérité fondamentale de l’Internet moderne : l’ouverture a un prix. Le Web est public et, comme le dit Brent Maynard d’Akamai : « Vous êtes ouvert et vous êtes visible du public ».

Exit mobile version