NVIDIA es acusada de extraer masivamente videos de YouTube y Netflix para entrenar un modelo de IA, generando preocupaciones sobre posibles violaciones de derechos de autor. Descubre los detalles de la investigación y las respuestas de las empresas involucradas.
En una revelación sorprendente, se acusa a NVIDIA de haber entrenado su modelo de IA generativa con enormes cantidades de contenido en video extraído de YouTube y Netflix, lo que podría estar violando las leyes de derechos de autor. Según una investigación de 404 Media, las actividades de NVIDIA implicaron la extracción de hasta 80 años de material en video diariamente de estas plataformas.
La investigación, impulsada por filtraciones de datos internos de Slack, correos electrónicos corporativos y testimonios de ex empleados, sugiere que las prácticas de NVIDIA involucraron esfuerzos significativos de extracción de datos. Los empleados supuestamente usaron una herramienta de código abierto para descargar videos de YouTube y emplearon entre 20 y 30 máquinas virtuales alojadas en Amazon Web Services para facilitar las descargas masivas. Esta operación llevó a la acumulación de 80 años de contenido en video cada día y a la recolección de 30 millones de URLs en solo un mes.
Algunas de las bases de datos que contienen los videos utilizados en el proyecto de NVIDIA indican explícitamente que están destinadas solo para uso académico y carecen de licencias comerciales. A pesar de contar con su propio equipo de investigación, las comunicaciones internas indican que el contenido extraído tenía como objetivo fines comerciales como parte del proyecto de desarrollo de IA de la compañía, llamado Cosmos. Ming-Yu Liu, Vicepresidente de Investigación de NVIDIA, fue reportada como una de las personas más activas en los esfuerzos de recolección de datos.
Respuestas de las Empresas Involucradas
En respuesta a las acusaciones, NVIDIA ha afirmado que cumple con las leyes de derechos de autor, con un portavoz de la compañía declarando: «Respetamos los derechos de todos los creadores de contenido y estamos seguros de que nuestros modelos y esfuerzos de investigación cumplen plenamente con la letra y el espíritu de la ley de derechos de autor.» NVIDIA defiende sus acciones bajo el principio de «uso justo», afirmando que los datos se utilizaron para fines transformativos como el entrenamiento de modelos y que aprender de fuentes de datos existentes es una práctica estándar.
YouTube y Netflix también han abordado la situación. Un representante de YouTube reafirmó los comentarios del CEO Neal Mohan realizados en abril, que calificaron el uso de videos de YouTube para el entrenamiento de IA como una “violación clara de los términos de servicio de YouTube.” Mientras tanto, Netflix aclaró que no tiene un acuerdo de transferencia de contenido con NVIDIA y enfatizó que sus términos de servicio prohíben la extracción masiva de datos.
Esta controversia destaca las preocupaciones en curso sobre la transparencia y legalidad del uso de materiales protegidos por derechos de autor para el entrenamiento de IA. NVIDIA y otras grandes empresas tecnológicas, como Apple y Salesforce, también han enfrentado escrutinio por el uso de videos de YouTube en el desarrollo de IA.
A medida que el debate continúa, subraya la necesidad de directrices y regulaciones más claras sobre el uso de contenido en línea en la investigación y desarrollo de IA.