Uno de los puntos de venta de los modelos de inteligencia artificial generativa insignia de Google, Gemini 1.5 Pro y 1.5 Flash, es la cantidad de datos que supuestamente pueden procesar y analizar. En las conferencias de prensa y demostraciones, Google ha afirmado repetidamente que los modelos pueden lograr tareas previamente imposibles gracias a su «largo contexto», como resumir documentos de cientos de páginas o buscar a través de escenas en metraje cinematográfico.
Pero nuevas investigaciones sugieren que los modelos no son, de hecho, muy buenos en esas cosas.
Dos estudios separados investigaron qué tan bien los modelos de Gemini de Google y otros comprenden una enorme cantidad de datos, como obras de longitud comparable a «Guerra y Paz». Ambos encuentran que Gemini 1.5 Pro y 1.5 Flash tienen dificultades para responder preguntas sobre conjuntos de datos grandes; en una serie de pruebas basadas en documentos, los modelos dieron la respuesta correcta solo entre el 40% y el 50% del tiempo.
«Si bien modelos como Gemini 1.5 Pro pueden procesar técnicamente contextos largos, hemos visto muchos casos que indican que los modelos realmente no ‘entienden’ el contenido», dijo Marzena Karpinska, una postdoc en UMass Amherst y coautora de uno de los estudios, a TechCrunch.
La ventana de contexto de Gemini es insuficiente
El contexto de un modelo, o ventana de contexto, se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar una salida (por ejemplo, texto adicional). Una pregunta simple, como «¿Quién ganó las elecciones presidenciales de EE.UU. en 2020?», puede servir como contexto, al igual que un guion de película, un espectáculo o un clip de audio. Y a medida que crecen las ventanas de contexto, también lo hacen el tamaño de los documentos que se ajustan a ellas.
Las versiones más recientes de Gemini pueden procesar más de 2 millones de tokens como contexto. («Tokens» son fragmentos subdivididos de datos crudos, como las sílabas «fan,» «tas» y «tic» en la palabra «fantástico»). Eso equivale aproximadamente a 1.4 millones de palabras, dos horas de video o 22 horas de audio, el contexto más grande de cualquier modelo disponible comercialmente.
En una presentación a principios de este año, Google mostró varias demostraciones pregrabadas destinadas a ilustrar el potencial de las capacidades de largo contexto de Gemini. Una de ellas tenía a Gemini 1.5 Pro buscando en la transcripción de la transmisión de alunizaje del Apolo 11, alrededor de 402 páginas, citas que contenían chistes, y luego encontrar una escena en la transmisión que se parecía a un dibujo a lápiz.
Oriol Vinyals, VP de investigación de Google DeepMind, quien dirigió la presentación, describió el modelo como «mágico».
«[1.5 Pro] realiza este tipo de tareas de razonamiento en cada página, en cada palabra», dijo.
Eso podría haber sido una exageración.
En uno de los estudios anteriores que evaluaron estas capacidades, Karpinska, junto con investigadores del Instituto Allen para la IA y Princeton, pidieron a los modelos que evaluaran afirmaciones verdaderas o falsas sobre libros de ficción escritos en inglés. Los investigadores eligieron obras recientes para que los modelos no pudieran «hacer trampas» confiando en el conocimiento previo, y salpicaron las afirmaciones con referencias a detalles específicos y puntos de la trama que serían imposibles de comprender sin leer los libros en su totalidad.
Dado un enunciado como «Al usar sus habilidades como Apoth, Nusis puede ingenierizar inversamente el tipo de portal abierto por la llave de ingredientes activos encontrada en el cofre de madera de Rona», Gemini 1.5 Pro y 1.5 Flash, habiendo ingerido el libro relevante, tenían que decir si la afirmación era verdadera o falsa y explicar su razonamiento.
Probados en un libro de alrededor de 260,000 palabras (~520 páginas) de longitud, los investigadores encontraron que 1.5 Pro respondió correctamente a las afirmaciones verdaderas o falsas el 46.7% del tiempo, mientras que Flash respondió correctamente solo el 20% del tiempo. Eso significa que una moneda es significativamente mejor respondiendo preguntas sobre el libro que el último modelo de aprendizaje automático de Google. Promediando todos los resultados de referencia, ninguno de los modelos logró superar la probabilidad aleatoria en términos de precisión al responder preguntas.
«Hemos notado que los modelos tienen más dificultades para verificar afirmaciones que requieren considerar porciones más grandes del libro, o incluso el libro completo, en comparación con afirmaciones que se pueden resolver recuperando evidencia a nivel de oración», dijo Karpinska. «Cualitativamente, también observamos que los modelos tienen dificultades para verificar afirmaciones sobre información implícita que es clara para un lector humano pero no está explícitamente declarada en el texto.»
El segundo de los dos estudios, coautorizado por investigadores de la UC Santa Barbara, probó la capacidad de Gemini 1.5 Flash (pero no de 1.5 Pro) para «razonar sobre» videos, es decir, buscar y responder preguntas sobre el contenido en ellos.
Los coautores crearon un conjunto de datos de imágenes (por ejemplo, una foto de una tarta de cumpleaños) emparejadas con preguntas para que el modelo respondiera sobre los objetos representados en las imágenes (por ejemplo, «¿Qué personaje de dibujos animados hay en esta tarta?»). Para evaluar los modelos, eligieron una de las imágenes al azar e insertaron imágenes «distractoras» antes y después de ella para crear un metraje similar a una presentación de diapositivas.
Flash no se desempeñó muy bien. En una prueba en la que el modelo tenía que transcribir seis dígitos escritos a mano de una «presentación de diapositivas» de 25 imágenes, Flash acertó alrededor del 50% de las transcripciones. La precisión disminuyó a aproximadamente el 30% con ocho dígitos.
«En tareas reales de respuesta a preguntas sobre imágenes, parece ser particularmente difícil para todos los modelos que probamos», dijo Michael Saxon, estudiante de doctorado en la UC Santa Barbara y uno de los coautores del estudio. «Esa pequeña cantidad de razonamiento, reconocer que un número está en un marco y leerlo, podría ser lo que está rompiendo el modelo.»
Google está exagerando con Gemini
Ninguno de los estudios ha sido revisado por pares, ni investigan las versiones de Gemini 1.5 Pro y 1.5 Flash con contextos de 2 millones de tokens. (Ambos probaron las versiones de 1 millón de tokens de contexto.) Y Flash no pretende ser tan capaz como Pro en términos de rendimiento; Google lo anuncia como una alternativa de bajo costo.
Sin embargo, ambos avivan la polémica de que Google ha estado exagerando y subestimando con Gemini desde el principio. Ninguno de los modelos que probaron los investigadores, incluidos el GPT-4o de OpenAI y el Claude 3.5 Sonnet de Anthropic, tuvieron un buen desempeño. Pero Google es el único proveedor de modelos que ha dado un gran énfasis a la ventana de contexto en sus anuncios.
«No hay nada malo en la simple afirmación, ‘Nuestro modelo puede tomar X número de tokens’ basado en detalles técnicos objetivos», dijo Saxon. «Pero la pregunta es, ¿qué cosa útil puedes hacer con él?»
La inteligencia artificial generativa en general está siendo sometida a un mayor escrutinio a medida que las empresas (y los inversionistas) se frustran con las limitaciones de la tecnología.
En un par de encuestas recientes de Boston Consulting Group, aproximadamente la mitad de los encuestados, todos ejecutivos de alto nivel, dijeron que no esperan que la inteligencia artificial generativa aporte ganancias significativas de productividad y que están preocupados por el potencial de errores y compromisos de datos derivados de herramientas impulsadas por inteligencia artificial generativa. PitchBook informó recientemente que, durante dos trimestres consecutivos, la actividad de inversión en inteligencia artificial generativa en las etapas más tempranas ha disminuido, cayendo un 76% desde su punto máximo en el tercer trimestre de 2023.
Frente a chatbots que resumen reuniones que inventan detalles ficticios sobre personas y plataformas de búsqueda de IA que básicamente equivalen a generadores de plagio, los clientes están en busca de diferenciadores prometedores. Google, que ha corrido, a veces torpemente, para ponerse al día con sus rivales de IA generativa, estaba desesperado por hacer del contexto de Gemini uno de esos diferenciadores.
Pero la apuesta fue prematura, parece ser.
«No hemos decidido una forma de mostrar realmente que se está llevando a cabo ‘razonamiento’ o ‘comprensión’ sobre documentos largos, y básicamente cada grupo que lanza estos modelos está improvisando sus propias evaluaciones ad hoc para hacer estas afirmaciones», dijo Karpinska. «Sin el conocimiento de cómo se implementa el procesamiento de contextos largos, y las empresas no comparten estos detalles, es difícil decir qué tan realistas son estas afirmaciones.»
Google no respondió a una solicitud de comentario.
Tanto Saxon como Karpinska creen que los antídotos para las afirmaciones exageradas sobre la IA generativa son mejores referencias y, en la misma línea, un mayor énfasis en la crítica de terceros. Saxon señala que una de las pruebas más comunes para el largo contexto (citada liberalmente por Google en sus materiales de marketing), «la aguja en el pajar», solo mide la capacidad de un modelo para recuperar información específica, como nombres y números, de conjuntos de datos, no responder preguntas complejas sobre esa información.
«Todos los científicos y la mayoría de los ingenieros que utilizan estos modelos están básicamente de acuerdo en que nuestra cultura de referencias actual está rota», dijo Saxon, «así que es importante que el público entienda que tome estos informes gigantes que contienen números como ‘inteligencia general en las referencias’ con una enorme cantidad de escepticismo.»