El aumento del tráfico inexplicable de bots procedentes de China abruma a los sitios web de todo el mundo

19
El aumento del tráfico inexplicable de bots procedentes de China abruma a los sitios web de todo el mundo

Una misteriosa ola de tráfico web automatizado, procedente principalmente de Lanzhou, China, está inundando sitios web en todo el mundo, dejando a los operadores desconcertados y luchando por encontrar soluciones. A partir de septiembre, los propietarios de sitios de diversos sectores (desde blogs paranormales hasta dominios del gobierno de EE. UU.) han informado de un aumento de la actividad de los bots, lo que ha distorsionado los análisis, inflado los costos del ancho de banda y potencialmente perjudicando los ingresos publicitarios.

Los visitantes fantasmales de Lanzhou

Alejandro Quintero, un analista de datos que dirige un sitio web de temática paranormal, notó la anomalía por primera vez en octubre. Su sitio experimentó un repentino aumento en el tráfico procedente de China y Singapur, y ahora representa más de la mitad de sus visitas totales. Los visitantes, todos aparentemente localizados en Lanzhou, exhibieron un comportamiento antinatural: cero tiempo de permanencia, sin desplazamiento, sin clics. Esto confirmó sus sospechas: el tráfico no era humano.

Otros rápidamente se hicieron eco de la experiencia de Quintero. Una revista de estilo de vida en la India, un blog de una isla canadiense, sitios de portafolios personales, una plataforma meteorológica con millones de páginas e incluso dominios del gobierno de EE. UU. se vieron afectados por el mismo patrón. Los análisis de Analytics.usa.gov muestran que, en los últimos 90 días, Lanzhou y Singapur se convirtieron en las dos principales ciudades que supuestamente consumen información del gobierno estadounidense, representando el 14,7% y el 6,6% de las visitas, respectivamente.

¿Quién está detrás de la inundación?

Si bien el tráfico se origina en direcciones IP de China y Singapur, sigue siendo difícil identificar a los actores. Los bots no han sido vinculados con ataques cibernéticos o análisis de vulnerabilidades, pero su gran volumen está causando interrupciones. La explicación más plausible es la recopilación de datos de IA: las empresas navegan por la web para entrenar grandes modelos de lenguaje.

Sin embargo, estos robots se diferencian de los típicos rastreadores de IA. Son mucho más numerosos (representan el 22% del tráfico en algunos sitios, en comparación con menos del 10% para todos los demás robots de IA combinados) y se disfrazan activamente, eludiendo los mecanismos comunes de detección de bots. A diferencia de los laboratorios de IA establecidos que a menudo identifican a sus robots, estos actores parecen decididos a evadir el bloqueo.

Gavin King, fundador de Known Agents, rastreó el tráfico a través de servidores pertenecientes a los principales proveedores de nube chinos, incluidos Tencent (ASN 132203), Alibaba y Huawei. Aún no está claro si los bots se originan en operaciones internas o en clientes que utilizan estos servidores.

Los costos son reales

Los bots no parecen maliciosos, pero su impacto es significativo. Los propietarios de sitios web se preocupan por las violaciones de derechos de autor, el aumento de los costos del ancho de banda y los análisis sesgados. Para aquellos que dependen de los ingresos por publicidad, el tráfico de bots puede penalizar sus ganancias, ya que plataformas como Google AdSense pueden devaluar los sitios inundados de interacción artificial.

“Esto está destruyendo mis estrategias de AdSense”, afirma Quintero. “Dicen que [su sitio web] sólo es visitado por bots, por lo que su contenido no es algo valioso para el espectador”.

Soluciones improvisadas y un futuro incierto

Sin una solución inmediata a la vista, los operadores de sitios web están recurriendo a medidas ad hoc. Entre las estrategias improvisadas que se comparten en línea se encuentran el bloqueo de IP chinas y singapurenses, el filtrado de versiones antiguas de Windows y la identificación de resoluciones de pantalla inusuales. Algunos han bloqueado ASN completos asociados con los principales proveedores de nube.

Si bien son efectivas hasta cierto punto, estas soluciones son temporales. A medida que las herramientas de inteligencia artificial autónoma se vuelven más frecuentes, los propietarios de sitios web probablemente enfrentarán desafíos cada vez mayores para distinguir el tráfico legítimo del scraping automatizado. En otras palabras, el costo de mantener una presencia en línea está aumentando y la distinción entre actividad humana y mecánica se está volviendo borrosa.

La proliferación del scraping impulsado por IA subraya una verdad fundamental de la Internet moderna: la apertura tiene un precio. La web es pública y, como dice Brent Maynard de Akamai, “estás abierta y a la vista del público”.