En el auge de la inteligencia artificial generativa, los datos son el nuevo petróleo. Entonces, ¿por qué no deberías poder vender los tuyos? Desde las grandes empresas de tecnología hasta las startups, los creadores de IA están licenciando libros electrónicos, imágenes, videos, audios y más de intermediarios de datos, todo en busca de entrenar productos impulsados por IA más capaces (y legalmente defendibles). Shutterstock tiene acuerdos con Meta, Google, Amazon y Apple para proporcionar millones de imágenes para el entrenamiento de modelos, mientras que OpenAI ha firmado acuerdos con varias organizaciones de noticias para entrenar sus modelos en archivos de noticias.
En muchos casos, los creadores y propietarios individuales de esos datos no han visto ni un centavo del dinero que cambia de manos. Una startup llamada Vana quiere cambiar eso. Anna Kazlauskas y Art Abal, quienes se conocieron en una clase en el MIT Media Lab centrada en construir tecnología para mercados emergentes, cofundaron Vana en 2021. Con Vana, Kazlauskas y Abal se propusieron construir una plataforma que permitiera a los usuarios «agrupar» sus datos, incluidos chats, grabaciones de voz y fotos, en conjuntos de datos que luego se pudieran usar para el entrenamiento de modelos de IA generativa. También quieren crear experiencias más personalizadas, como por ejemplo, un mensaje de voz motivacional diario basado en tus objetivos de bienestar, o una aplicación generadora de arte que comprenda tus preferencias de estilo, ajustando los modelos públicos con esos datos.
«La infraestructura de Vana crea efectivamente un tesoro de datos propiedad del usuario», dijo Kazlauskas a TechCrunch. «Esto lo hace al permitir a los usuarios agregar sus datos personales de forma no custodial… Vana permite a los usuarios poseer modelos de IA y utilizar sus datos en aplicaciones de IA.»
Crear una cuenta con Vana es bastante sencillo. Después de confirmar tu correo electrónico, puedes adjuntar datos a un avatar digital (como selfies, una descripción de ti mismo y grabaciones de voz) y explorar aplicaciones construidas utilizando la plataforma y conjuntos de datos de Vana. La selección de aplicaciones va desde chatbots estilo ChatGPT y libros de historias interactivos hasta un generador de perfiles de Hinge.
¿Por qué alguien compartiría su información personal con una startup anónima, mucho menos una respaldada por capital de riesgo? En respuesta a esa pregunta, Kazlauskas enfatizó que el propósito de Vana es que los usuarios «recuperen el control sobre sus datos», señalando que los usuarios de Vana tienen la opción de alojar sus propios datos en lugar de almacenarlos en los servidores de Vana y controlar cómo se comparten sus datos con aplicaciones y desarrolladores. Además, argumentó que, dado que Vana obtiene ingresos cobrando a los usuarios una suscripción mensual (a partir de $3.99) y aplicando una tarifa de «transacción de datos» a los desarrolladores (por ejemplo, por transferir conjuntos de datos para el entrenamiento de modelos de IA), la empresa no tiene incentivos para explotar a los usuarios y los tesoros de datos personales que aportan.
Personalmente, no veo que el DAO de Vana alcance una masa crítica. Los obstáculos en el camino son demasiados. Sin embargo, creo que no será el último intento de base para afirmar el control sobre los datos que se utilizan cada vez más para entrenar modelos de IA generativa. Startups como Spawning están trabajando en formas de permitir a los creadores imponer reglas que guíen cómo se utiliza sus datos para el entrenamiento, mientras que empresas como Getty Images, Shutterstock y Adobe continúan experimentando con esquemas de compensación. Pero nadie ha descifrado el código todavía. ¿Realmente puede descifrarse? Dada la naturaleza despiadada de la industria de IA generativa, ciertamente es un desafío. Pero tal vez alguien encuentre una manera, o los responsables de las políticas obliguen a hacerlo.