OpenAI firma acuerdo para entrenar AI con datos de Reddit.

OpenAI firma acuerdo para entrenar AI con datos de Reddit.

OpenAI ha llegado a un acuerdo con Reddit para utilizar los datos del popular sitio de noticias sociales para entrenar modelos de inteligencia artificial.

En una publicación en el sitio de relaciones públicas de OpenAI, la compañía mencionó que la asociación con Reddit le proporcionará acceso a «contenido en tiempo real, estructurado y único» – como publicaciones y respuestas – de Reddit, permitiendo que sus herramientas y modelos «comprendan y muestren» mejor ese contenido. El contenido de Reddit se incorporará a ChatGPT, la popular inteligencia artificial conversacional de OpenAI, y las compañías trabajarán juntas para introducir nuevas funciones «potenciadas por IA» tanto para los usuarios como para los moderadores de Reddit.

OpenAI también se convertirá en un socio publicitario de Reddit.

«Reddit aprovechará la plataforma de modelos de IA de OpenAI para dar vida a su poderosa visión», escribió OpenAI en la publicación. «El uso de LLMs, ML y IA permitirá a Reddit mejorar la experiencia del usuario para todos».

OpenAI tiene varios acuerdos de licencia similares con proveedores de contenido que van desde bibliotecas de medios hasta editores de noticias. Sin embargo, lo que hace particular a este acuerdo es que Sam Altman, CEO de OpenAI, posee una participación del 8.7% en Reddit, lo que lo convierte en el tercer mayor accionista y alguna vez fue miembro del consejo de directores de la compañía.

Reddit ha hecho de los acuerdos de licencia de datos una parte central de su estrategia de crecimiento a medida que se adentra en el mercado como empresa pública. En su prospecto de OPI, Reddit reveló que tiene acuerdos contractuales para licenciar sus datos a clientes, incluido Google, por un valor combinado de más de $200 millones. En su primer informe de ingresos como empresa pública, Reddit informó un aumento del 450% interanual en los ingresos no publicitarios, atribuible principalmente a esos acuerdos.

La plataforma de Reddit, que cuenta con más de mil millones de publicaciones y más de 16 mil millones de comentarios, es una mina de oro para empresas de IA generativa, cuyos modelos aprenden de ejemplos de contenido, como texto e imágenes, para generar nuevo contenido similar.

A pesar de los beneficios que esto pueda traer, Reddit podría enfrentar críticas de usuarios preocupados por cómo se están monetizando sus datos. Es importante mencionar que Stack Overflow, el foro de preguntas y respuestas para desarrolladores de software, recientemente llegó a un acuerdo con OpenAI para suministrar datos para el entrenamiento de modelos. Algunos usuarios protestaron eliminando sus respuestas mejor valoradas, pero Stack Overflow restauró las publicaciones eliminadas y prohibió a esos usuarios por no cumplir con sus términos de servicio.

Por otra parte, Reddit se ha manifestado en contra de un intento de otorgar a los usuarios de Reddit un mayor control sobre sus propios datos. Vana, una startup basada en blockchain, está intentando lanzar una «DAO» de datos (Organización Autónoma Digital) para permitir que los usuarios de Reddit agrupen sus datos y decidan juntos cómo se utiliza (o se vende) ese conjunto de datos combinados. Reddit prohibió el subreddit de Vana dedicado a la discusión sobre la DAO, acusando a la empresa de «explotar» sus controles de exportación de datos.

En resumen, la asociación entre OpenAI y Reddit representa una colaboración innovadora que promete mejorar la experiencia de los usuarios de Reddit mediante la implementación de la inteligencia artificial en la plataforma. Sin embargo, es importante seguir de cerca cómo se manejarán los datos de los usuarios y cómo se equilibrarán los beneficios de la IA con la privacidad y la seguridad de los mismos.