Jefe de IA de Meta dice que los modelos mundiales son clave para la 'IA a nivel humano' — pero podría tardar 10 años

¿Los modelos de IA actuales realmente están recordando, pensando, planificando y razonando, tal como lo haría un cerebro humano? Algunos laboratorios de IA te harían creer que sí, pero según el científico jefe de IA de Meta, Yann LeCun, la respuesta es no. Sin embargo, él cree que podríamos lograrlo en una década más o menos, persiguiendo un nuevo método llamado «modelo del mundo».

A principios de este año, OpenAI lanzó una nueva función que llama «memoria» que permite a ChatGPT «recordar» tus conversaciones. La última generación de modelos de la startup, o1, muestra la palabra «pensamiento» al generar una salida, y OpenAI dice que los mismos modelos son capaces de «razonamiento complejo».

Todo esto suena como si estuviéramos bastante cerca de la IA general. Sin embargo, durante una charla reciente en el Foro de Hudson, LeCun contradecía a los optimistas de la IA, como el fundador de xAI, Elon Musk, y el co-fundador de Google DeepMind, Shane Legg, quienes sugieren que la IA a nivel humano está a la vuelta de la esquina.

» Necesitamos máquinas que entiendan el mundo; máquinas que puedan recordar cosas, que tengan intuición, sentido común, cosas que puedan razonar y planificar al mismo nivel que los humanos», dijo LeCun durante la charla. «A pesar de lo que puedas haber escuchado de algunas de las personas más entusiastas, los sistemas de IA actuales no son capaces de nada de esto.»

LeCun dice que los grandes modelos de lenguaje de hoy en día, como los que alimentan ChatGPT y Meta AI, están lejos de ser una «IA a nivel humano». La humanidad podría estar «años o décadas» de lograr algo así, dijo más tarde. (Eso no impide que su jefe, Mark Zuckerberg, le pregunte cuándo sucederá AGI).

La razón es sencilla: esos LLMs funcionan prediciendo el siguiente token (generalmente unas pocas letras o una palabra corta), y los modelos de imagen/video de hoy en día están prediciendo el siguiente píxel. En otras palabras, los modelos de lenguaje son predictores unidimensionales, y los modelos de imagen/video de IA son predictores bidimensionales. Estos modelos se han vuelto bastante buenos en predecir en sus dimensiones respectivas, pero realmente no entienden el mundo tridimensional.

Debido a esto, los sistemas de IA modernos no pueden realizar tareas simples que la mayoría de los humanos pueden. LeCun señala cómo los humanos aprenden a limpiar una mesa de cena a los 10 años, y a conducir un coche a los 17 años, y aprenden ambos en cuestión de horas. Pero incluso los sistemas de IA más avanzados del mundo hoy en día, construidos sobre miles o millones de horas de datos, no pueden operar de manera confiable en el mundo físico.

Para lograr tareas más complejas, LeCun sugiere que necesitamos construir modelos tridimensionales que puedan percibir el mundo que nos rodea, y centrarnos en un nuevo tipo de arquitectura de IA: los modelos del mundo.

«Un modelo del mundo es tu modelo mental de cómo se comporta el mundo», explicó. «Puedes imaginar una secuencia de acciones que podrías tomar, y tu modelo del mundo te permitirá predecir cuál será el efecto de la secuencia de acciones en el mundo.»

Considera el «modelo del mundo» en tu propia cabeza. Por ejemplo, imagina mirar a un dormitorio desordenado y querer que esté limpio. Puedes imaginar cómo recoger toda la ropa y guardarla haría el truco. No necesitas probar múltiples métodos, ni aprender a limpiar una habitación primero. Tu cerebro observa el espacio tridimensional y crea un plan de acción para lograr tu objetivo en el primer intento. Ese plan de acción es la clave que prometen los modelos de IA del mundo.

Parte del beneficio aquí es que los modelos del mundo pueden procesar significativamente más datos que los LLMs. Eso también los hace intensivos en computación, por lo que los proveedores de servicios en la nube se apresuran a asociarse con empresas de IA.

Los modelos del mundo son la gran idea que varios laboratorios de IA están persiguiendo ahora, y el término se está convirtiendo rápidamente en la próxima palabra de moda para atraer financiación de capital de riesgo. Un grupo de investigadores de IA altamente respetados, incluidos Fei-Fei Li y Justin Johnson, acaba de recaudar $230 millones para su startup, World Labs. La «madre de la IA» y su equipo también están convencidos de que los modelos del mundo desbloquearán sistemas de IA significativamente más inteligentes. OpenAI también describe su generador de video Sora no lanzado como un modelo del mundo, pero no ha entrado en detalles.

LeCun esbozó una idea para usar modelos del mundo para crear IA a nivel humano en un paper de 2022 sobre «IA impulsada por objetivos», aunque señala que el concepto tiene más de 60 años. En resumen, una representación base del mundo (como un video de una habitación sucia, por ejemplo) y la memoria se alimentan en un modelo del mundo. Luego, el modelo del mundo predice cómo se verá el mundo basándose en esa información. Luego, le das al modelo del mundo objetivos, incluido un estado alterado del mundo que te gustaría lograr (como una habitación limpia) y límites para garantizar que el modelo no dañe a los humanos para lograr un objetivo (por favor, no me mates en el proceso de limpiar mi habitación). Luego, el modelo del mundo encuentra una secuencia de acciones para lograr estos objetivos.

El laboratorio de investigación de IA a largo plazo de Meta, FAIR o Investigación Fundamental de IA, está trabajando activamente en la construcción de una IA impulsada por objetivos y modelos del mundo, según LeCun. FAIR solía trabajar en IA para los próximos productos de Meta, pero LeCun dice que el laboratorio ha cambiado en los últimos años para centrarse únicamente en la investigación de IA a largo plazo. LeCun dice que FAIR ni siquiera usa LLMs en la actualidad.

Los modelos del mundo son una idea intrigante, pero LeCun dice que no hemos avanzado mucho en llevar estos sistemas a la realidad. Hay muchos problemas muy difíciles para llegar desde donde estamos hoy, y dice que ciertamente es más complicado de lo que pensamos.

«Va a llevar años antes de que podamos hacer que todo esto funcione, si no una década», dijo LeCun. «Mark Zuckerberg sigue preguntándome cuánto tiempo va a llevar.»

Noticias Relacionadas

En el Festival de Cine de Inteligencia Artificial, la humanidad triunfó sobre la tecnología.

Los códigos QR en las paradas de autobús de San Antonio cambian el juego para los pasajeros con discapacidad visual.

Xiaomi presenta la Smart Band 9 con mayor duración de batería y precisión en el monitoreo