En el mundo actual, los datos se han convertido en el nuevo petróleo, y una startup con sede en Londres está compitiendo por convertirse en el equivalente de la Bolsa de Comercio de Nueva York: un mercado donde las empresas de inteligencia artificial que buscan datos para entrenar sus modelos de IA pueden llegar a acuerdos con editores y otras empresas que tienen datos para vender.
La startup, llamada Human Native AI, ha contratado recientemente a varios prominentes ex ejecutivos de Google con experiencia en negociaciones de licencias de contenido y asociaciones, así como a destacados expertos legales con experiencia en propiedad intelectual y problemas de derechos de autor.
Hasta la fecha, las empresas que construyen los grandes modelos de lenguaje (LLMs) que han impulsado la revolución de la inteligencia artificial generativa han cosechado datos, de forma gratuita, mediante el scraping de internet público, a menudo con poco respeto por los derechos de autor.
Pero hay señales de que esta era está llegando a su fin rápidamente. En los Estados Unidos, varias demandas contra empresas de IA por presunta violación de la ley de derechos de autor al entrenar modelos de IA con material tomado de internet sin permiso están avanzando en los tribunales. Aunque es posible que los jueces determinen que dicha actividad pueda considerarse «uso justo», las empresas que crean modelos de IA prefieren no arriesgarse a estar involucradas en litigios durante años.
En Europa, la nueva Ley de IA de la UE exige que las empresas revelen si han entrenado modelos de IA en material con derechos de autor, abriendo potencialmente a estas empresas a acciones legales también. Las empresas de IA ya han estado llegando a acuerdos con importantes editoriales y organizaciones de noticias para licenciar datos tanto para entrenamiento como para asegurarse de que sus modelos tengan acceso a información actualizada y precisa.
Las empresas de IA tienen problemas para asegurar seguros comerciales si sus prácticas de recopilación de datos potencialmente los exponen a riesgos legales, lo que proporciona otro incentivo para que muchas de estas empresas licencien los datos que necesitan. El scraping de datos también se está volviendo más difícil desde un punto de vista técnico, ya que muchas empresas han comenzado a utilizar medios técnicos para evitar que los bots recopilen sus datos. Algunos artistas también han comenzado a aplicar máscaras digitales especiales a las imágenes que publican en línea que pueden corromper los modelos de IA entrenados a partir de estos datos sin permiso.
Además, los mayores modelos de lenguaje (LLMs), como los que alimentan al ChatGPT de OpenAI, al Gemini de Google y al Claude de Anthropic, ya han ingerido el valor de internet público, disponible. Mientras tanto, el entrenamiento de modelos de IA más pequeños y efectivos, especialmente aquellos diseñados para propósitos específicos, como ayudar a los abogados a redactar contratos específicos, a los científicos a diseñar nuevos medicamentos o a los ingenieros a crear planos, requiere conjuntos de datos curados de información de alta calidad relacionada con esa tarea. Muy pocos de este tipo de datos especializados están disponibles en internet público, por lo que solo se pueden obtener a través de acuerdos de licencia.
Por eso, James Smith, un veterano ingeniero y director de productos de Google y Google DeepMind, decidió cofundar Human Native con Jack Galilee, un ingeniero de software que trabajó en sistemas de aprendizaje automático en la empresa de tecnología médica Grail. «Nos preguntábamos por qué no había una forma fácil para las empresas de adquirir los datos que necesitan para entrenar modelos de IA», dijo Smith, actual CEO de Human Native.
Incluso cuando las empresas de IA querían obtener datos de manera ética y legal, a menudo les resultaba difícil saber quién tenía qué datos, y luego averiguar con quién hablar en esa empresa para llegar a un acuerdo de licencia. El tiempo actualmente requerido para negociar tales acuerdos también podría ser un impedimento para los desarrolladores de modelos de IA que se mueven rápidamente, con algunos tomando la posición de que si se tomaran el tiempo para hacer lo correcto, podrían arriesgarse a quedarse atrás comercialmente, comentó.
Human Native tiene la intención de ser un mercado digital que permitirá a aquellos que necesitan datos para sistemas de IA conectarse fácilmente con aquellos que los tienen y llegar a un acuerdo utilizando contratos legales relativamente estandarizados. En junio, recaudó una ronda de financiación de $3.6 millones liderada por fondos de capital de riesgo con sede en Londres LocalGlobe y Mercuri para comenzar a hacer realidad esa visión. También cuenta entre sus asesores con el empresario, desarrollador de IA y músico Ed Newton-Rex, quien encabezó el equipo de audio de la empresa de IA generativa Stability AI, pero desde entonces se ha convertido en un crítico destacado del desprecio de las empresas de IA por los derechos de autor.