Exclusivo: OpenAI trabaja en una nueva tecnología de razonamiento bajo el nombre en clave ‘Strawberry’

Exclusivo: OpenAI trabaja en una nueva tecnología de razonamiento bajo el nombre en clave ‘Strawberry’

12 de julio – El creador de ChatGPT, OpenAI, está trabajando en un enfoque novedoso para sus modelos de inteligencia artificial en un proyecto con el nombre en clave «Strawberry», según una persona familiarizada con el asunto y la documentación interna revisada por Reuters.

El proyecto, cuyos detalles no se habían informado previamente, llega en un momento en que la startup respaldada por Microsoft se apresura a demostrar que los tipos de modelos que ofrece son capaces de proporcionar capacidades avanzadas de razonamiento.

Equipos dentro de OpenAI están trabajando en Strawberry, según una copia de un documento interno reciente de OpenAI visto por Reuters en mayo. Reuters no pudo determinar la fecha precisa del documento, que detalla un plan sobre cómo OpenAI pretende utilizar Strawberry para realizar investigaciones. La fuente describió el plan a Reuters como un trabajo en progreso. La agencia de noticias no pudo establecer cuán cerca está Strawberry de estar disponible públicamente.

Cómo funciona Strawberry es un secreto muy bien guardado incluso dentro de OpenAI, dijo la persona.

El documento describe un proyecto que utiliza modelos Strawberry con el objetivo de permitir que la IA de la empresa no solo genere respuestas a consultas, sino que planifique con anticipación lo suficiente como para navegar por internet de manera autónoma y confiable para realizar lo que OpenAI denomina «investigación profunda», según la fuente.

Esto es algo que ha eludido a los modelos de IA hasta la fecha, según entrevistas con más de una docena de investigadores de IA.

Consultado sobre Strawberry y los detalles informados en esta historia, un portavoz de OpenAI dijo en un comunicado: “Queremos que nuestros modelos de IA vean y comprendan el mundo más como lo hacemos nosotros. La investigación continua en nuevas capacidades de IA es una práctica común en la industria, con una creencia compartida de que estos sistemas mejorarán en razonamiento con el tiempo”.

El portavoz no abordó directamente las preguntas sobre Strawberry.

El proyecto Strawberry anteriormente se conocía como Q*, que Reuters informó el año pasado ya se consideraba dentro de la empresa como un avance.

Dos fuentes describieron haber visto a principios de este año lo que los empleados de OpenAI les dijeron que eran demostraciones de Q*, capaces de responder preguntas complicadas de ciencia y matemáticas fuera del alcance de los modelos disponibles comercialmente hoy en día.

El martes, en una reunión interna, OpenAI mostró una demostración de un proyecto de investigación que afirmó tenía nuevas habilidades de razonamiento similar a la humana, según Bloomberg. Un portavoz de OpenAI confirmó la reunión pero se negó a dar detalles sobre el contenido. Reuters no pudo determinar si el proyecto demostrado era Strawberry.

OpenAI espera que la innovación mejore dramáticamente las capacidades de razonamiento de sus modelos de IA, dijo la persona familiarizada con el asunto, y agregó que Strawberry implica una forma especializada de procesar un modelo de IA después de que ha sido preentrenado en grandes conjuntos de datos.

Los investigadores entrevistados por Reuters dicen que el razonamiento es clave para que la IA alcance una inteligencia a nivel humano o superhumano.

Si bien los grandes modelos de lenguaje ya pueden resumir textos densos y componer prosa elegante mucho más rápido que cualquier humano, la tecnología a menudo falla en problemas de sentido común cuyas soluciones parecen intuitivas para las personas, como reconocer falacias lógicas y jugar al tres en raya. Cuando el modelo se encuentra con este tipo de problemas, a menudo «alucina» información falsa.

Los investigadores de IA entrevistados por Reuters generalmente están de acuerdo en que el razonamiento, en el contexto de la IA, implica la formación de un modelo que permita a la IA planificar con anticipación, reflejar cómo funciona el mundo físico y resolver problemas complejos de múltiples pasos de manera confiable.

Mejorar el razonamiento en los modelos de IA se considera la clave para desbloquear la capacidad de los modelos para hacer de todo, desde realizar descubrimientos científicos importantes hasta planificar y construir nuevas aplicaciones de software.

El CEO de OpenAI, Sam Altman, dijo a principios de este año que en la IA «las áreas más importantes de progreso estarán en torno a la capacidad de razonamiento».

Otras empresas como Google, Meta y Microsoft también están experimentando con diferentes técnicas para mejorar el razonamiento en los modelos de IA, al igual que la mayoría de los laboratorios académicos que realizan investigación en IA. Sin embargo, los investigadores difieren en si los grandes modelos de lenguaje (LLMs) son capaces de incorporar ideas y planificación a largo plazo en la forma en que hacen predicciones. Por ejemplo, uno de los pioneros de la IA moderna, Yann LeCun, que trabaja en Meta, ha dicho frecuentemente que los LLMs no son capaces de razonamiento similar al humano.

DESAFÍOS DE LA IA

Strawberry es un componente clave del plan de OpenAI para superar esos desafíos, dijo la fuente familiarizada con el asunto. El documento visto por Reuters describe lo que Strawberry pretende habilitar, pero no cómo.

En los últimos meses, la empresa ha estado señalando en privado a desarrolladores y otras partes externas que está a punto de lanzar tecnología con capacidades de razonamiento significativamente más avanzadas, según cuatro personas que han oído los discursos de la empresa. Se negaron a ser identificadas porque no están autorizadas a hablar sobre asuntos privados.

Strawberry incluye una forma especializada de lo que se conoce como «post-entrenamiento» de los modelos de IA generativa de OpenAI, o adaptar los modelos base para perfeccionar su rendimiento de maneras específicas después de que ya han sido «entrenados» en grandes cantidades de datos generalizados, dijo una de las fuentes.

La fase de post-entrenamiento de desarrollo de un modelo implica métodos como el «ajuste fino», un proceso utilizado en casi todos los modelos de lenguaje hoy en día que viene en muchas formas, como hacer que los humanos den retroalimentación al modelo en función de sus respuestas y alimentarlo con ejemplos de buenas y malas respuestas.

Strawberry tiene similitudes con un método desarrollado en Stanford en 2022 llamado «Self-Taught Reasoner» o «STaR», dijo una de las fuentes con conocimiento del asunto. STaR permite a los modelos de IA «arrancar» a niveles de inteligencia más altos mediante la creación iterativa de sus propios datos de entrenamiento, y en teoría podría usarse para llevar a los modelos de lenguaje a trascender la inteligencia a nivel humano, dijo a Reuters uno de sus creadores, el profesor de Stanford Noah Goodman.

«Creo que eso es tanto emocionante como aterrador… si las cosas siguen yendo en esa dirección, tenemos algunas cosas serias en las que pensar como humanos», dijo Goodman. Goodman no está afiliado a OpenAI y no está familiarizado con Strawberry.

Entre las capacidades a las que OpenAI apunta con Strawberry está la realización de tareas de largo horizonte (LHT), dice el documento, refiriéndose a tareas complejas que requieren que un modelo planifique con anticipación y realice una serie de acciones durante un período prolongado, explicó la primera fuente.

Para hacerlo, OpenAI está creando, entrenando y evaluando los modelos en lo que la empresa llama un conjunto de datos de «investigación profunda», según la documentación interna de OpenAI. Reuters no pudo determinar qué contiene ese conjunto de datos o cuánto tiempo significaría un período prolongado.

OpenAI específicamente quiere que sus modelos utilicen estas capacidades para realizar investigaciones navegando por la web de manera autónoma con la ayuda de un «CUA» o agente de uso de computadoras, que puede tomar acciones basadas en sus hallazgos, según el documento y una de las fuentes. OpenAI también planea probar sus capacidades para realizar el trabajo de ingenieros de software y aprendizaje automático.