El New York Times solicita que OpenAI y Microsoft paguen por los datos de entrenamiento

El New York Times solicita que OpenAI y Microsoft paguen por los datos de entrenamiento

El New York Times demanda a OpenAI y a su cercano colaborador (e inversor), Microsoft, por presuntamente violar la ley de derechos de autor al capacitar modelos de inteligencia artificial generativa con contenido del Times.

En la demanda, presentada en el Tribunal de Distrito Federal en Manhattan, The Times sostiene que millones de sus artículos fueron utilizados para entrenar modelos de IA, incluidos los que sustentan el ultra popular ChatGPT de OpenAI y el Copilot de Microsoft, sin su consentimiento. The Times está pidiendo a OpenAI y a Microsoft que «destruyan» modelos y datos de entrenamiento que contengan el material ofensivo y que sean responsables de «miles de millones de dólares en daños estatuarios y reales» relacionados con la «copia y uso ilegal de las valiosas obras únicas del Times».

«Si The Times y otras organizaciones de noticias no pueden producir y proteger su periodismo independiente, habrá un vacío que ninguna computadora o inteligencia artificial podrá llenar», dice la queja de The Times. «Se producirá menos periodismo, y el costo para la sociedad será enorme».

En una declaración por correo electrónico, un portavoz de OpenAI dijo: “Respetamos los derechos de los creadores y propietarios de contenido y estamos comprometidos a trabajar con ellos para asegurarnos de que se beneficien de la tecnología de inteligencia artificial y los nuevos modelos de ingresos. Nuestras conversaciones en curso con The New York Times han sido productivas y avanzamos de manera constructiva, por lo que estamos sorprendidos y decepcionados con este desarrollo. Esperamos encontrar una forma mutuamente beneficiosa de trabajar juntos, como lo estamos haciendo con muchos otros editores”.

Los modelos de IA generativa «aprenden» de ejemplos para crear ensayos, código, correos electrónicos, artículos y más, y vendedores como OpenAI recopilan en la web millones a miles de millones de estos ejemplos para agregar a sus conjuntos de entrenamiento. Algunos ejemplos están en el dominio público. Otros no, o están bajo licencias restrictivas que requieren cita o formas específicas de compensación.

Los proveedores argumentan que la doctrina de uso justo proporciona una protección integral para sus prácticas de cosecha web. Los titulares de los derechos de autor no están de acuerdo; cientos de organizaciones de noticias ahora están utilizando código para evitar que OpenAI, Google y otros escaneen sus sitios web en busca de datos de entrenamiento.

El conflicto entre el proveedor y el medio ha llevado a un número creciente de disputas legales, siendo la de The Times la más reciente.

La actriz Sarah Silverman se unió a un par de demandas en julio que acusan a Meta y OpenAI de haber «ingerido» las memorias de Silverman para capacitar sus modelos de IA. En una demanda aparte, miles de novelistas, incluidos Jonathan Franzen y John Grisham, afirman que OpenAI utilizó su trabajo como datos de entrenamiento sin su permiso o conocimiento. Y varios programadores tienen un caso en curso contra Microsoft, OpenAI y GitHub por Copilot, una herramienta de generación de código con inteligencia artificial, que, según los demandantes, se desarrolló utilizando su código protegido por derechos de autor.

Si bien The Times no es la primera en demandar a los proveedores de IA generativa por presuntas violaciones de derechos de autor que involucran obras escritas, es el mayor editor involucrado en tal demanda hasta la fecha, y uno de los primeros en resaltar el posible daño a su marca a través de «alucinaciones», o hechos inventados por modelos de IA generativos.

La demanda de The Times cita varios casos en los que Bing Chat de Microsoft (ahora llamado Copilot), que se basa en un modelo de OpenAI, proporcionó información incorrecta que se decía que venía de The Times, incluidos resultados para «los 15 alimentos más saludables para el corazón», 12 de los cuales no se mencionaban en ningún artículo de The Times.

The Times también argumenta que OpenAI y Microsoft están construyendo efectivamente competidores de los editores de noticias utilizando las obras de The Times, perjudicando el negocio de The Times al proporcionar información que no podría accederse normalmente sin una suscripción, información que no siempre se cita, a veces se monetiza y se despoja de enlaces de afiliados que The Times utiliza para generar comisiones. Además, como se insinúa en la queja de The Times, los modelos de IA generativa tienen tendencia a regurgitar datos de entrenamiento, por ejemplo, reproduciendo casi textualmente resultados de artículos. Además de la regurgitación, OpenAI ha habilitado en al menos una ocasión inadvertidamente a los usuarios de ChatGPT para eludir el contenido de noticias bloqueado por pago.

«Los demandados buscan beneficiarse de la enorme inversión de The Times en su periodismo», dice la demanda, acusando a OpenAI y Microsoft de «utilizar el contenido de The Times sin pago para crear productos que sustituyen a The Times y roban audiencias de ella».

Los impactos en el negocio de suscripciones a noticias y el tráfico web de los editores es el núcleo de una demanda tangencialmente similar presentada por los editores a principios de mes contra Google. En el caso, los demandados, como The Times, argumentaron que los experimentos de GenAI de Google, incluido su chatbot Bard con inteligencia artificial y su Experiencia de Búsqueda Generativa, desvían el contenido, los lectores y los ingresos publicitarios de los editores a través de medios anticompetitivos.

Existen argumentos válidos para las afirmaciones de los editores. Un modelo reciente de The Atlantic encontró que, si un motor de búsqueda como Google integrara la inteligencia artificial en la búsqueda, respondería a la consulta de un usuario el 75% del tiempo sin requerir un clic a su sitio web. Los editores en la demanda contra Google estiman que perderían hasta el 40% de su tráfico.

Eso no significa que tengan éxito en el tribunal. Heather Meeker, socia fundadora de OSS Capital y asesora en asuntos de propiedad intelectual, incluidos acuerdos de licencia, comparó el ejemplo de regurgitación de The Times con «usar un procesador de texto para cortar y pegar». «En la demanda, The New York Times da un ejemplo de una sesión de ChatGPT sobre una reseña de un restaurante de 2012», dijo Meeker a TechCrunch por correo electrónico. «La indicación para ChatGPT es ‘¿Cuáles eran los párrafos iniciales de su reseña?’ Las siguientes indicaciones piden repetidamente ‘la siguiente oración’. Provocar a un chatbot para reproducir una entrada no es una base sensata para la infracción de derechos de autor … Si el usuario hace que el chatbot copie intencionalmente, es culpa del usuario. Y por eso la mayoría de [demandas como estas] probablemente fracasarán».

Algunos medios de comunicación, en lugar de combatir a los proveedores de IA generativa en los tribunales, han optado por firmar acuerdos de licencia con ellos. The Associated Press cerró un acuerdo en julio con OpenAI, y Axel Springer, el editor alemán que posee Politico y Business Insider, hizo lo mismo este mes.

En su demanda, The Times dice que intentó llegar a un acuerdo de licencia con Microsoft y OpenAI en abril, pero las negociaciones finalmente no fueron fructíferas.