Uma onda misteriosa de tráfego automatizado na web, originada principalmente em Lanzhou, na China, está inundando sites em todo o mundo, deixando os operadores perplexos e lutando por soluções. A partir de Setembro, um aumento da actividade de bots foi relatado por proprietários de sites em diversos sectores – desde blogs paranormais a domínios do governo dos EUA – distorcendo a análise, inflacionando os custos de largura de banda e potencialmente prejudicando as receitas de publicidade.
Os visitantes fantasmagóricos de Lanzhou
Alejandro Quintero, analista de dados que administra um site com tema paranormal, notou a anomalia pela primeira vez em outubro. Seu site registrou um aumento repentino no tráfego proveniente da China e de Cingapura, representando agora mais da metade do total de visitas. Os visitantes, todos aparentemente localizados em Lanzhou, exibiram um comportamento não natural: tempo de permanência zero, sem rolagem, sem cliques. Isto confirmou a sua suspeita – o tráfego não era humano.
Outros rapidamente repetiram a experiência de Quintero. Uma revista de estilo de vida na Índia, um blog em uma ilha canadense, sites de portfólio pessoal, uma plataforma meteorológica com milhões de páginas e até mesmo domínios do governo dos EUA foram atingidos pelo mesmo padrão. As análises do Analytics.usa.gov mostram que, nos últimos 90 dias, Lanzhou e Singapura tornaram-se as duas principais cidades que supostamente consomem informações do governo americano, representando 14,7% e 6,6% das visitas, respetivamente.
Quem está por trás do dilúvio?
Embora o tráfego tenha origem em endereços IP da China e de Singapura, a identificação dos intervenientes permanece uma tarefa difícil. Os bots não foram associados a ataques cibernéticos ou verificações de vulnerabilidades, mas seu grande volume está causando interrupções. A explicação mais plausível é a coleta de dados de IA: empresas vasculhando a web para treinar grandes modelos de linguagem.
No entanto, esses bots diferem dos rastreadores de IA típicos. São muito mais numerosos – representando 22% do tráfego em alguns sites, em comparação com menos de 10% de todos os outros bots de IA combinados – e disfarçam-se ativamente, contornando mecanismos comuns de deteção de bots. Ao contrário dos laboratórios de IA estabelecidos que frequentemente identificam os seus bots, estes atores parecem determinados a evitar o bloqueio.
Gavin King, fundador da Known Agents, rastreou o tráfego através de servidores pertencentes aos principais provedores de nuvem chineses, incluindo Tencent (ASN 132203), Alibaba e Huawei. Ainda não está claro se os bots se originam de operações internas ou de clientes que usam esses servidores.
Os custos são reais
Os bots não parecem maliciosos, mas o seu impacto é significativo. Os proprietários de sites se preocupam com violações de direitos autorais, aumento dos custos de largura de banda e análises distorcidas. Para aqueles que dependem da receita publicitária, o tráfego de bots pode penalizar seus ganhos, já que plataformas como o Google AdSense podem desvalorizar sites inundados com engajamento artificial.
“Isso está destruindo minhas estratégias do AdSense”, diz Quintero. “Eles estão dizendo que [seu site é] visitado apenas por bots, então seu conteúdo não é algo valioso para o visualizador.”
Soluções improvisadas e um futuro incerto
Sem nenhuma solução imediata à vista, os operadores de websites estão recorrendo a medidas ad hoc. Bloquear IPs chineses e de Singapura, filtrar versões antigas do Windows e identificar resoluções de tela incomuns estão entre as estratégias improvisadas compartilhadas online. Alguns bloquearam ASNs inteiros associados aos principais provedores de nuvem.
Embora eficazes até certo ponto, essas soluções são temporárias. À medida que as ferramentas autônomas de IA se tornam mais predominantes, os proprietários de sites provavelmente enfrentarão desafios crescentes para distinguir o tráfego legítimo da coleta automatizada. Por outras palavras, o custo de manter uma presença online está a aumentar e a distinção entre atividade humana e máquina está a esbater-se.
A proliferação de scraping impulsionado pela IA sublinha uma verdade fundamental da Internet moderna: a abertura tem um preço. A web é pública e, como diz Brent Maynard, da Akamai: “Você está aberto e à vista do público”.
