Una misteriosa ondata di traffico web automatizzato, proveniente principalmente da Lanzhou, in Cina, sta inondando i siti web di tutto il mondo, lasciando gli operatori sconcertati e alla ricerca di soluzioni. A partire da settembre, i proprietari di siti in diversi settori – dai blog sul paranormale ai domini governativi statunitensi – hanno segnalato un’impennata dell’attività dei bot, distorcendo l’analisi, gonfiando i costi della larghezza di banda e danneggiando potenzialmente le entrate pubblicitarie.
I visitatori spettrali di Lanzhou
Alejandro Quintero, un analista di dati che gestisce un sito web a tema paranormale, ha notato per la prima volta l’anomalia in ottobre. Il suo sito ha registrato un improvviso aumento del traffico proveniente dalla Cina e da Singapore, che ora rappresentano oltre la metà delle sue visite totali. I visitatori, tutti apparentemente localizzati a Lanzhou, hanno mostrato un comportamento innaturale: zero tempi di permanenza, nessuno scorrimento, nessun clic. Ciò confermò i suoi sospetti: il traffico non era umano.
Altri hanno subito fatto eco all’esperienza di Quintero. Una rivista di lifestyle in India, un blog su un’isola canadese, siti di portfolio personali, una piattaforma meteorologica con milioni di pagine e persino domini governativi statunitensi sono stati colpiti dallo stesso schema. Le analisi di Analytics.usa.gov mostrano che, negli ultimi 90 giorni, Lanzhou e Singapore sono diventate le due città principali che presumibilmente consumano informazioni del governo americano, rappresentando rispettivamente il 14,7% e il 6,6% delle visite.
Chi c’è dietro il diluvio?
Sebbene il traffico provenga da indirizzi IP cinesi e singaporesi, l’identificazione degli attori rimane sfuggente. I bot non sono stati collegati ad attacchi informatici o scansioni di vulnerabilità, ma il loro enorme volume sta causando disagi. La spiegazione più plausibile è la raccolta di dati tramite intelligenza artificiale: le aziende raschiano il web per addestrare modelli linguistici di grandi dimensioni.
Tuttavia, questi robot differiscono dai tipici crawler AI. Sono molto più numerosi – rappresentano il 22% del traffico su alcuni siti, rispetto a meno del 10% per tutti gli altri bot IA messi insieme – e si mascherano attivamente, aggirando i comuni meccanismi di rilevamento dei bot. A differenza dei laboratori di intelligenza artificiale consolidati che spesso identificano i propri robot, questi attori sembrano determinati a eludere il blocco.
Gavin King, fondatore di Known Agents, ha tracciato il traffico attraverso i server appartenenti ai principali fornitori di servizi cloud cinesi, tra cui Tencent (ASN 132203), Alibaba e Huawei. Non è chiaro se i bot provengano da operazioni interne o da client che utilizzano questi server.
I costi sono reali
I bot non sembrano dannosi, ma il loro impatto è significativo. I proprietari di siti web si preoccupano delle violazioni del copyright, dell’aumento dei costi della larghezza di banda e delle analisi distorte. Per coloro che fanno affidamento sulle entrate pubblicitarie, il traffico dei bot può penalizzare i loro guadagni, poiché piattaforme come Google AdSense possono svalutare i siti inondati di coinvolgimento artificiale.
“Questo sta distruggendo le mie strategie AdSense”, afferma Quintero. “Stanno dicendo che [il tuo sito web è] visitato solo da bot, quindi i tuoi contenuti non sono qualcosa di prezioso per lo spettatore.”
Soluzioni provvisorie e un futuro incerto
Senza una soluzione immediata in vista, gli operatori dei siti web stanno ricorrendo a misure ad hoc. Bloccare gli IP cinesi e singaporesi, filtrare le vecchie versioni di Windows e identificare risoluzioni insolite dello schermo sono alcune delle strategie improvvisate condivise online. Alcuni hanno bloccato interi ASN associati ai principali fornitori di servizi cloud.
Sebbene efficaci in una certa misura, queste soluzioni sono temporanee. Man mano che gli strumenti di intelligenza artificiale autonomi diventano sempre più diffusi, i proprietari di siti web probabilmente dovranno affrontare sfide crescenti nel distinguere il traffico legittimo dallo scraping automatizzato. In altre parole, il costo per mantenere una presenza online è in aumento e la distinzione tra attività umana e attività meccanica si sta offuscando.
La proliferazione dello scraping guidato dall’intelligenza artificiale sottolinea una verità fondamentale dell’Internet moderna: l’apertura ha un prezzo. Il Web è pubblico e, come afferma Brent Maynard di Akamai, “Sei aperto e visibile al pubblico”.





























