El padre de TikTok lanza un raspador de la web que devora los datos en línea del mundo 25 veces más rápido que OpenAI

El padre de TikTok lanza un raspador de la web que devora los datos en línea del mundo 25 veces más rápido que OpenAI

ByteDance parece estar ansioso por recuperar el tiempo perdido cuando se trata de raspar la web en busca de datos necesarios para entrenar sus modelos de inteligencia artificial generativa.

La empresa matriz con sede en China de la aplicación de video TikTok lanzó su propio rastreador web o bot rastreador, llamado Bytespider, en algún momento de abril, según investigaciones de Kasada, una empresa especializada en gestión de bots para empresas con datos en línea. La existencia del bot también fue confirmada por Dark Visitors, que monitorea los bots rastreadores.

El bot de ByteDance se ha convertido rápidamente en uno de los rastreadores más agresivos en Internet, mostrando una velocidad de extracción de datos que supera con creces a otras grandes empresas, como Google, Meta, Amazon, OpenAI y Anthropic, que utilizan sus propios bots rastreadores para crear y mejorar sus grandes modelos de lenguaje o multimodales, conocidos como LLMs o LMMs.

Sam Crowther, el CEO de Kasada, dijo que desde que Bytespider apareció, ha estado extrayendo datos a unas 25 veces la velocidad de GPTbot, que extrae datos para la plataforma ChatGPT de OpenAI y sus modelos subyacentes, por ejemplo. Bytespider ha estado extrayendo datos a una velocidad 3,000 veces mayor que ClaudeBot, de Anthropic, que opera la plataforma Claude.

A medida que han pasado los meses, Bytespider se ha vuelto aún más agresivo, según Kasada. Los datos muestran enormes picos en la actividad de extracción de Bytespider durante cada una de las últimas seis semanas.

Los representantes de TikTok y ByteDance no respondieron a los correos electrónicos en busca de comentarios.

La extracción agresiva de ByteDance se produce a pesar de la posibilidad de que TikTok sea prohibido en los Estados Unidos en los próximos meses. El presidente Joe Biden ha firmado una legislación que requiere que ByteDance venda TikTok, debido a preocupaciones de seguridad nacional, o lo cierre.

El bot Bytespider, al igual que los de OpenAI y Anthropic, no respeta el archivo robots.txt, según la investigación. Robots.txt es una línea de código que los editores pueden insertar en un sitio web que, aunque no tiene fuerza legal de ninguna manera, se supone que señala a los bots rastreadores que no pueden tomar los datos de ese sitio web.

La extracción web se remonta décadas, principalmente por parte de los motores de búsqueda para recopilar enlaces a páginas web. Pero el surgimiento de herramientas de IA generativa ha agregado una nueva dimensión y ha convertido la práctica en una fuente principal de demandas y controversias. Las personas y organizaciones cuyo trabajo ha sido extraído argumentan que se infringe su derecho de autor en el proceso. Todos los modelos que subyacen a las herramientas de IA generativa fueron entrenados con enormes cantidades de datos en línea, efectivamente todo lo disponible en la web, especialmente información escrita. Las empresas de tecnología utilizan bots rastreadores para copiar básicamente todo de forma gratuita y ponerlo en sus conjuntos de datos.

«Es como si estuvieran tratando desesperadamente de ponerse al día», dijo Crowther sobre la extracción agresiva realizada por Bytespider. Justo el año pasado, ByteDance estaba tan rezagado en la carrera de la IA generativa que supuestamente estaba utilizando OpenAI para ayudar a construir su propio LLM, lo cual va en contra de los términos de servicio de OpenAI. A principios de este año, ByteDance lanzó un LLM basado en chat llamado Duabo, pero el trabajo en ese modelo se habría completado antes de la acumulación de datos de entrenamiento más recientes extraídos por Bytespider.

Es «evidente» que ByteDance está trabajando en un nuevo LLM, según una persona familiarizada con la empresa. En cuanto a lo que ByteDance planea hacer con un nuevo LLM, una persona familiarizada con las ambiciones de la empresa dijo que uno de los objetivos tiene que ver con la función de búsqueda de TikTok.

La semana pasada, TikTok lanzó una actualización de su función de búsqueda actual centrada en palabras clave para anuncios, lo que básicamente permite a los anunciantes buscar en tiempo real las palabras que están de moda en TikTok. Esto permite a los especialistas en marketing construir un anuncio con palabras clave relevantes que supuestamente ayudarán a que el anuncio aparezca en las pantallas de más usuarios.

Un nuevo modelo de IA con datos sobre tendencias y temas de Internet más recientes podría expandir y mejorar aún más el entorno de búsqueda de TikTok, según la persona familiarizada con las ambiciones de la empresa.

«Dado el público y la cantidad de uso, TikTok con un entorno de búsqueda que sea un espacio completamente negociable con palabras clave y temas, eso sería muy interesante para muchas personas que gastan una gran cantidad de dinero con Google en este momento», dijo la persona.

¿Eres empleado de TikTok o ByteDance o alguien con información para compartir? Contacta a Kali Hays de forma segura a través de Signal al +1-949-280-0267 o en kali.hays@fortune.com.