Los últimos modelos de lenguaje, como GPT-4o y Gemini 1.5 Pro, se promocionan como «multi-modales», capaces de entender imágenes y audio además de texto, pero un nuevo estudio deja claro que realmente no «ven» de la manera que podrías esperar. De hecho, es posible que ni siquiera vean en absoluto.
Para ser claros desde el principio, nadie ha afirmado cosas como «¡Esta IA puede ver como lo hacen las personas!» (Bueno… tal vez algunos lo hayan hecho). Pero el marketing y los benchmarks utilizados para promocionar estos modelos usan frases como «capacidades de visión», «comprensión visual», y demás. Hablan sobre cómo el modelo ve y analiza imágenes y videos, para poder hacer cualquier cosa desde problemas de tarea hasta mirar el juego por ti.
Entonces, aunque las afirmaciones de estas compañías están hábilmente formuladas, está claro que quieren expresar que el modelo ve en algún sentido de la palabra. Y lo hace, pero de alguna manera similar a como hace matemáticas o escribe historias: emparejando patrones en los datos de entrada con patrones en sus datos de entrenamiento. Esto lleva a que los modelos fallen de la misma manera en tareas que parecen triviales, como elegir un número al azar.
Un estudio, informal en ciertos aspectos pero sistemático, de la comprensión visual de los modelos de IA actuales fue realizado por investigadores de la Universidad de Auburn y la Universidad de Alberta. Les plantearon a los modelos multimodales más grandes una serie de tareas visuales muy simples, como preguntar si dos formas se superponen, cuántos pentágonos hay en una imagen o qué letra de una palabra está circulada.
Son cosas que incluso un niño de primer grado respondería correctamente, pero que dieron gran dificultad a los modelos de IA.
«Nuestras 7 tareas son extremadamente simples, donde los humanos tendrían un 100% de exactitud. Esperamos que las IA hagan lo mismo, pero actualmente NO lo hacen», escribió el coautor Anh Nguyen en un correo electrónico a TechCrunch. «Nuestro mensaje es ‘miren, estos mejores modelos todavía están fallando’.»
Tomemos la prueba de formas superpuestas: una de las tareas de razonamiento visual más simples concebibles. Presentados con dos círculos ligeramente superpuestos, solo tocándose o con una distancia entre ellos, los modelos no pudieron obtener consistentemente la respuesta correcta. ¡Seguro, GPT-4o lo hizo bien más del 95% de las veces cuando estaban lejos, pero a distancias cercanas solo lo hizo correctamente el 18% del tiempo! Gemini Pro 1.5 lo hace mejor, pero aún solo obtiene 7/10 en distancias cortas.
(Las ilustraciones no muestran el rendimiento exacto de los modelos, pero pretenden mostrar la inconsistencia de los modelos en las condiciones. Las estadísticas de cada modelo están en el documento).
¿O qué tal contar el número de círculos entrelazados en una imagen? Apuesto a que un caballo por encima del promedio podría hacerlo.
Todos lo hacen correctamente el 100% de las veces cuando hay 5 anillos, ¡buen trabajo AI visual! Pero luego agregar un anillo destruye completamente los resultados. Gemini está perdido, incapaz de dar en el blanco ni una sola vez. Sonnet-3.5 responde 6… una tercera parte del tiempo, y GPT-4o un poco menos de la mitad del tiempo. Agregar otro anillo lo hace aún más difícil, pero agregar otro lo hace más fácil para algunos.
El punto de este experimento es simplemente mostrar que, sea lo que sea que estén haciendo estos modelos, realmente no se corresponde con lo que pensamos al hablar de ver. Después de todo, incluso si vieran mal, no esperaríamos que las imágenes de 6, 7, 8 y 9 anillos variaran tanto en éxito.
Las otras tareas probadas mostraron patrones similares: no era que estuvieran viendo o razonando bien o mal, sino que parecía haber alguna otra razón por la cual eran capaces de contar en un caso pero no en otro.
Una posible respuesta, por supuesto, nos está mirando directamente a la cara: ¿por qué deberían ser tan buenos para acertar con una imagen de 5 círculos, pero fallar tan miserablemente en el resto o cuando son 5 pentágonos? (Para ser justos, Sonnet-3.5 lo hizo bastante bien en ese caso). Porque todas tienen una imagen de 5 círculos destacada en sus datos de entrenamiento: los anillos olímpicos.
Este logo no solo se repite una y otra vez en los datos de entrenamiento, sino que probablemente se describe en detalle en el texto alternativo, las pautas de uso y los artículos sobre él. Pero ¿dónde encontrarás en sus datos de entrenamiento 6 anillos entrelazados o 7? Si sus respuestas son alguna indicación… ¡en ninguna parte! No tienen idea de lo que están «viendo» y no tienen una comprensión visual real de lo que son los anillos, las superposiciones o cualquiera de estos conceptos.
Le pregunté a los investigadores qué opinan sobre esta «ceguera» que acusan a los modelos de tener. Como otros términos que usamos, tiene una calidad antropomórfica que no es del todo precisa pero es difícil de evitar.
«Estoy de acuerdo, ‘ciego’ tiene muchas definiciones incluso para los humanos y aún no hay una palabra para este tipo de ceguera/insensibilidad de las IA a las imágenes que estamos mostrando», escribió Nguyen. «Actualmente, no hay tecnología para visualizar exactamente lo que un modelo está viendo. Y su comportamiento es una función compleja del texto de entrada, la imagen de entrada y miles de millones de pesos.»
Especuló que los modelos no están exactamente ciegos, pero que la información visual que extraen de una imagen es aproximada y abstracta, algo así como «hay un círculo en el lado izquierdo». Pero los modelos no tienen medios para hacer juicios visuales, haciendo que sus respuestas sean como las de alguien que está informado sobre una imagen pero que en realidad no puede verla.
Como último ejemplo, Nguyen envío esto, que respalda la hipótesis anterior:
Cuando un círculo azul y un círculo verde se superponen (como la pregunta le pide al modelo que tome como hecho), a menudo hay un área sombreada cian, como en un diagrama de Venn. Si alguien le hiciera esta pregunta, tú o cualquier persona inteligente podría dar la misma respuesta, ¡porque es totalmente plausible… si tienes los ojos cerrados! Pero nadie con los ojos abiertos respondería de esa manera.
¿Significa todo esto que estos modelos de IA «visuales» son inútiles? Lejos de eso. No poder hacer un razonamiento elemental sobre ciertas imágenes habla de sus capacidades fundamentales, pero no de sus capacidades específicas. Cada uno de estos modelos probablemente será muy preciso en cosas como acciones y expresiones humanas, fotos de objetos y situaciones cotidianas, y demás. Y de hecho, eso es lo que se pretende que interpreten.
Si confiamos en el marketing de las compañías de IA para decirnos todo lo que estos modelos pueden hacer, pensaríamos que tienen una visión de 20/20. Se necesita investigación como esta para mostrar que, por muy precisos que puedan ser los modelos al decir si una persona está sentada, caminando o corriendo, lo hacen sin «ver» en el sentido (si se quiere) que solemos usar.