Violación de OpenAI es un recordatorio de que las empresas de IA son verdaderos tesoros para los piratas informáticos.

No hay necesidad de preocuparse de que tus conversaciones secretas con ChatGPT hayan sido obtenidas en una reciente brecha de los sistemas de OpenAI. El hackeo en sí, aunque preocupante, parece haber sido superficial, pero es un recordatorio de que las compañías de inteligencia artificial se han convertido rápidamente en uno de los blancos más jugosos para los hackers.

El New York Times reportó el hackeo con más detalle después de que el ex empleado de OpenAI Leopold Aschenbrenner insinuara al respecto recientemente en un podcast. Él lo llamó un «importante incidente de seguridad», pero fuentes no identificadas de la compañía le dijeron al Times que el hacker sólo tuvo acceso a un foro de discusión de empleados. No hay que tratar realmente ninguna violación de seguridad como trivial, y escuchar las conversaciones internas de desarrollo de OpenAI ciertamente tiene su valor. Pero está lejos de que un hacker tenga acceso a sistemas internos, modelos en desarrollo, mapas secretos, etc.

Sin embargo, debería asustarnos de todas formas, y no necesariamente por la amenaza de que China u otros adversarios nos adelanten en la carrera armamentística de la inteligencia artificial. El simple hecho es que estas compañías de inteligencia artificial se han convertido en guardianes de una cantidad tremenda de datos muy valiosos.

Hablemos de tres tipos de datos que OpenAI y, en menor medida, otras compañías de inteligencia artificial crearon o tienen acceso: datos de entrenamiento de alta calidad, interacciones masivas de usuarios y datos de clientes. Es incierto qué datos de entrenamiento exactamente tienen, porque las compañías son increíblemente secretas sobre sus tesoros. Pero es un error pensar que son sólo montones de datos web raspados. Sí, utilizan rastreadores web o conjuntos de datos como el Pile, pero es una tarea gigantesca dar forma a esos datos en bruto en algo que se pueda usar para entrenar un modelo como GPT-4o. Se requiere una enorme cantidad de horas de trabajo humano para hacerlo, no puede automatizarse completamente.

Algunos ingenieros de aprendizaje automático han especulado que de todos los factores que participan en la creación de un gran modelo de lenguaje (o, tal vez, cualquier sistema basado en transformadores), el factor más importante es la calidad del conjunto de datos. Es por eso que un modelo entrenado en Twitter y Reddit nunca será tan elocuente como uno entrenado en cada obra publicada en el último siglo. Así que los conjuntos de datos de entrenamiento que ha construido OpenAI tienen un valor tremendamente importante para competidores, desde otras compañías hasta estados adversarios o reguladores aquí en los Estados Unidos.

Pero quizás aún más valiosa es la enorme cantidad de datos de usuario de OpenAI, probablemente miles de millones de conversaciones con ChatGPT sobre cientos de miles de temas. Al igual que los datos de búsqueda fueron una vez clave para entender el psique colectivo de la web, ChatGPT tiene su dedo en el pulso de una población que puede no ser tan amplia como el universo de usuarios de Google, pero proporciona mucha más profundidad. En el caso de Google, un aumento en las búsquedas de «aires acondicionados» te dice que el mercado se está calentando un poco. Pero esos usuarios no tienen una conversación completa sobre lo que quieren, cuánto dinero están dispuestos a gastar, cómo es su hogar, fabricantes que quieren evitar, y así sucesivamente. Sabes que esto es valioso porque Google está tratando de convertir a sus usuarios para que proporcionen esta misma información sustituyendo las interacciones de IA por búsquedas.

Piensa en cuántas conversaciones han tenido las personas con ChatGPT, y qué tan útil es esa información, no solo para los desarrolladores de IA, sino también para los equipos de marketing, consultores, analistas… es una mina de oro.