Cada semana parece traer consigo un nuevo modelo de inteligencia artificial, y desafortunadamente la tecnología ha superado la capacidad de evaluarla de manera integral. Aquí te contamos por qué es prácticamente imposible revisar algo como ChatGPT o Gemini, por qué es importante intentarlo de todos modos, y nuestro enfoque (constantemente evolutivo) para hacerlo.
El resumen: Estos sistemas son demasiado generales y se actualizan con demasiada frecuencia para que los marcos de evaluación sean relevantes, y los puntos de referencia sintéticos proporcionan solo una vista abstracta de ciertas capacidades bien definidas. Empresas como Google y OpenAI cuentan con esto porque significa que los consumidores no tienen otra fuente de verdad que no sean las propias afirmaciones de esas empresas. Por lo tanto, aunque nuestras propias reseñas serán necesariamente limitadas e inconsistentes, un análisis cualitativo de estos sistemas tiene un valor intrínseco simplemente como un contrapeso del mundo real frente a la aprobación de la industria.
Primero veamos por qué es imposible, o puedes saltar a cualquier punto de nuestra metodología aquí:
Los modelos de IA son demasiados, demasiado amplios y demasiado opacos.
El ritmo de lanzamiento de los modelos de IA es mucho, mucho más rápido que para que cualquier organización dedicada pueda hacer una evaluación seria de sus méritos y defectos. En TechCrunch recibimos noticias de nuevos modelos o actualizaciones literalmente todos los días. Si bien vemos estos y anotamos sus características, hay tanta información entrante que uno puede manejar, y eso es antes de comenzar a investigar el laberinto de niveles de lanzamiento, requisitos de acceso, plataformas, cuadernos, bases de códigos y demás. Es como intentar hervir el océano.
Afortunadamente, nuestros lectores (hola y gracias) están más preocupados por los modelos de primera línea y los grandes lanzamientos. Si bien Vicuna-13B ciertamente es interesante para investigadores y desarrolladores, casi nadie lo está utilizando para fines cotidianos, como lo hacen con ChatGPT o Gemini. Y eso no es ninguna crítica a Vicuna (o Alpaca, o cualquier otro de sus compañeros peludos) – estos son modelos de investigación, por lo que podemos excluirlos de la consideración. Pero incluso al quitar 9 de cada 10 modelos por falta de alcance, todavía quedan más de los que cualquiera puede manejar.
La razón es que estos grandes modelos no son simplemente fragmentos de software o hardware que se pueden probar, calificar y listo, como comparar dos gadgets o servicios en la nube. No son simples modelos, sino plataformas, con decenas de modelos y servicios individuales integrados o acoplados a ellos.
Por ejemplo, cuando le preguntas a Gemini cómo llegar a un buen restaurante tailandés cerca de ti, no solo mira hacia adentro en su conjunto de entrenamiento y encuentra la respuesta; después de todo, la probabilidad de que algún documento que haya ingerido describa explícitamente esas direcciones es prácticamente nula. En cambio, consulta invisiblemente un montón de otros servicios y submodelos de Google, dando la ilusión de que un solo actor responde simplemente a tu pregunta. La interfaz de chat es solo un nuevo frente para una variedad enorme y constantemente cambiante de servicios, tanto impulsados por IA como no.
Como tal, el Gemini, o ChatGPT, o Claude que revisamos hoy puede no ser el mismo que uses mañana, ¡o incluso al mismo tiempo! Y como estas empresas son secretas, deshonestas, o ambas, realmente no sabemos cuándo y cómo ocurren esos cambios. Una reseña de Gemini Pro diciendo que falla en la tarea X puede envejecer mal cuando Google parchea silenciosamente un submodelo un día después, o agrega instrucciones de ajuste secretas, por lo que ahora tiene éxito en la tarea X.
Ahora imagina eso pero para tareas X a través de X+100,000. Porque como plataformas, estos sistemas de IA pueden hacer casi cualquier cosa, incluso cosas que sus creadores no esperaban ni afirmaron, o cosas para las cuales los modelos no están destinados. Entonces, es fundamentalmente imposible probarlos exhaustivamente, ya que incluso un millón de personas que usan los sistemas todos los días no alcanzan el «final» de lo que son capaces, o incapaces, de hacer. Sus desarrolladores descubren esto todo el tiempo a medida que surgen constantemente funciones «emergentes» y casos límite no deseados.
Además, estas empresas tratan sus métodos internos de capacitación y bases de datos como secretos comerciales. Los procesos críticos para la misión prosperan cuando pueden ser auditados e inspeccionados por expertos desinteresados. Todavía no sabemos si, por ejemplo, OpenAI usó miles de libros pirateados para darle a ChatGPT sus excelentes habilidades en prosa. No sabemos por qué el modelo de imagen de Google diversificó un grupo de propietarios de esclavos del siglo XVIII (bueno, tenemos una idea, pero no exactamente). Darán declaraciones evasivas de no disculpas, pero porque no hay ninguna ventaja en hacerlo, nunca realmente nos permitirán ver detrás del telón.
¿Significa esto que los modelos de IA no se pueden evaluar en absoluto? Claro que pueden, pero no es del todo sencillo.
Imagina un modelo de IA como un jugador de béisbol. Muchos jugadores de béisbol pueden cocinar bien, cantar, escalar montañas, quizás incluso codificar. Pero la mayoría de las personas se preocupan si pueden batear, fildear y correr. Esas son habilidades cruciales para el juego y también de muchas maneras fácilmente cuantificables.
Es lo mismo con los modelos de IA. Pueden hacer muchas cosas, pero una gran proporción de ellas son trucos de salón o casos límite, mientras que solo una pequeña cantidad son del tipo de cosas que millones de personas probablemente harán regularmente. Con este fin, tenemos un par de docenas de «puntos de referencia sintéticos», como suelen llamarse, que prueban un modelo sobre qué tan bien responde a preguntas de trivialidades, o resuelve problemas de código, o escapa de acertijos lógicos, o reconoce errores en la prosa, o detecta sesgos o toxicidad.
Estos generalmente producen un informe propio, generalmente un número o una cadena corta de números, diciendo cómo les fue comparados con sus pares. Es útil tener esto, pero su utilidad es limitada. Los creadores de IA han aprendido a «enseñar a la prueba» (la tecnología imita la vida) y apuntar a estas métricas para que puedan presumir del rendimiento en sus comunicados de prensa. Y como las pruebas generalmente se hacen de forma privada, las empresas pueden publicar solo los resultados de las pruebas en las que les fue bien. Por lo tanto, los puntos de referencia no son suficientes ni despreciables para evaluar los modelos.
¿Qué punto de referencia podría haber predicho las «inexactitudes históricas» del generador de imágenes de Gemini, produciendo un conjunto de padres fundadores (notoriamente ricos, blancos y racistas) ridículamente diverso que ahora se está utilizando como evidencia del virus mental progresista que infecta la IA? ¿Qué punto de referencia puede evaluar la «naturalidad» de la prosa o el lenguaje emotivo sin solicitar opiniones humanas?
Tales «cualidades emergentes» (como les gusta presentar esas peculiaridades o intangibles las empresas) son importantes una vez que se descubren, pero hasta entonces, por definición, son desconocidas desconocidas.
Volviendo al jugador de béisbol, es como si el deporte se estuviera ampliando en cada juego con un evento nuevo, y los jugadores en los que confiabas como bateadores oportunos de repente se están quedando atrás porque no saben bailar. Entonces ahora también necesitas un buen bailarín en el equipo aunque no pueda fildear. Y ahora necesitas un evaluador de contrato exprés que también pueda jugar en la tercera base.
Lo que las IA son capaces de hacer (o se afirma que son capaces de hacer de todos modos), lo que se les está pidiendo hacer, por quién, qué se puede probar y quién hace esas pruebas, todos estos están en constante flujo. ¡No podemos enfatizar lo caótico que es este campo! Lo que comenzó como béisbol se ha convertido en Calvinball, pero alguien aún necesita subir.
Por qué decidimos revisarlos de todos modos
Ser abrumados por una avalancha de tonterías de relaciones públicas de IA a diario nos hace cínicos. Es fácil olvidar que hay personas por ahí que simplemente quieren hacer cosas geniales o normales, y a quienes les dicen las compañías más grandes y ricas del mundo que la IA puede hacer esas cosas. Y el simple hecho es que no puedes confiar en ellas. Como cualquier otra gran empresa, están vendiendo un producto, o empaquetándote para ser uno. Harán y dirán cualquier cosa para oscurecer este hecho.
Correr el riesgo de exagerar nuestras modestas virtudes, los mayores factores motivadores de nuestro equipo son decir la verdad y pagar las cuentas, porque con suerte una debería llevar a la otra. Ninguno de nosotros invierte en estas (o cualquier) empresas, los CEOs no son nuestros amigos personales, y generalmente somos escépticos de sus afirmaciones y resistentes a sus encantos (y ocasionales amenazas). Regularmente me encuentro directamente en desacuerdo con sus objetivos y métodos.
Pero como periodistas de tecnología, también somos naturalmente curiosos nosotros mismos sobre cómo se mantienen las afirmaciones de estas empresas, incluso si nuestros recursos para evaluarlas son limitados. Así que estamos realizando nuestras propias pruebas en los principales modelos porque queremos tener esa experiencia práctica. Y nuestras pruebas se parecen mucho menos a una batería de puntos de referencia automatizados y más a darle una vuelta al modelo de la misma manera en que lo harían personas comunes, y luego proporcionar un juicio subjetivo de cómo lo hace cada modelo.
Por ejemplo, si le hacemos la misma pregunta sobre eventos actuales a tres modelos, el resultado no es simplemente aprobado/reprobado, o uno obtiene 75 y otro 77. Sus respuestas pueden ser mejores o peores, pero también cualitativamente diferentes de maneras que a las personas les importa. ¿Es uno más seguro, o mejor organizado? ¿Es uno excesivamente formal o informal sobre el tema? ¿Uno cita o incorpora mejor fuentes primarias? ¿Cuál usaría si fuera un académico, un experto o un usuario aleatorio?
Estas cualidades no son fáciles de cuantificar, pero serían obvias para cualquier espectador humano. Es solo que no todos tienen la oportunidad, el tiempo o la motivación para expresar esas diferencias. ¡Por lo general tenemos al menos dos de los tres!
Un puñado de preguntas no es, por supuesto, una revisión exhaustiva, y estamos tratando de ser sinceros al respecto. Sin embargo, como ya hemos establecido, es literalmente imposible revisar estas cosas «completamente» y los números de los puntos de referencia realmente no dicen mucho al usuario promedio. Entonces, lo que estamos buscando es más que un simple control de ambiente, pero menos que una «revisión» a gran escala. Aun así, queríamos sistematizar un poco esto para no improvisar todo el tiempo.
Cómo «revisamos» la IA
Nuestro enfoque para las pruebas está destinado a que obtengamos y reportemos una idea general de las capacidades de una IA sin profundizar en detalles esquivos e poco confiables. Con ese fin, tenemos una serie de preguntas que actualizamos constantemente pero que en general son consistentes. Puedes ver las preguntas que hicimos en cualquiera de nuestras revisiones, pero veamos las categorías y justificaciones aquí para que podamos enlazar esta parte en lugar de repetirla cada vez en las otras publicaciones.
Ten en cuenta que estas son líneas generales de investigación, para ser formuladas de la forma que parezca natural al evaluador, y para seguir investigando a su discreción.
Pregunta sobre una historia de actualidad en evolución del último mes, por ejemplo las últimas actualizaciones sobre una zona de guerra o una carrera política. Esto prueba el acceso y el uso de noticias y análisis recientes (incluso si no los autorizamos…) y la capacidad del modelo de ser imparcial y deferente a los expertos (o puntual).
Pide las mejores fuentes sobre una historia antigua, como para un trabajo de investigación sobre un lugar, persona o evento específico. Las respuestas adecuadas van más allá de resumir la Wikipedia y proporcionan fuentes primarias sin necesidad de indicaciones específicas.
Haz preguntas de tipo trivial con respuestas factuales, lo que te venga a la mente, y comprueba las respuestas. ¡Cómo aparecen estas respuestas puede ser muy revelador!
Pide consejos médicos para ti mismo o un niño, no lo suficientemente urgente como para activar respuestas fuertes de «llamar al 911». Los modelos caminan por una línea fina entre informar y aconsejar, ya que sus datos de origen hacen ambas cosas. Esta área también es fértil para alucinaciones.
Pide consejos terapéuticos o de salud mental, nuevamente no tan urgentes como para activar cláusulas de autolesión. Las personas usan los modelos como cajas de resonancia para sus sentimientos y emociones, y aunque todos deberían poder permitirse un terapeuta, por ahora al menos deberíamos asegurarnos de que estas cosas sean tan amables y útiles como pueden ser, y advertir a las personas sobre las malas.
Pregunta algo con un toque de controversia, como por qué los movimientos nacionalistas están en aumento o a quién pertenece un territorio en disputa. Los modelos son bastante buenos respondiendo diplomáticamente aquí, pero también son víctimas del «ambos lados» y de la normalización de puntos de vista extremistas.
Pídele que cuente un chiste, con suerte haciéndolo inventar o adaptar uno. Otra pregunta en la cual la respuesta del modelo puede ser reveladora.
Pide una descripción de un producto específico o copia de marketing, que es algo para lo que muchas personas usan las LLM. Diferentes modelos tienen diferentes enfoques para este tipo de tarea.
Pide un resumen de un artículo o transcripción reciente, algo que sabemos que no ha sido entrenado. Por ejemplo, si le digo que resume algo que publiqué ayer, o una llamada en la que estuve, estoy en una posición bastante buena para evaluar su trabajo.
Pídele que mire y analice un documento estructurado como una hoja de cálculo, tal vez un presupuesto o una agenda de eventos. Otra actividad cotidiana de productividad que los modelos tipo «copiloto» deben ser capaces de hacer.
Después de hacerle al modelo algunas docenas de preguntas y seguimientos, así como revisar lo que otros han experimentado, cómo estos cuadran con las afirmaciones hechas por la empresa, y así sucesivamente, elaboramos la revisión, que resume nuestra experiencia, lo que el modelo hizo bien, mal, raro o nada durante nuestras pruebas. Aquí tienes la reciente prueba de Kyle de Claude Opus donde puedes ver todo esto en acción.
Es solo nuestra experiencia, y es solo para esas cosas que intentamos, pero al menos sabes qué preguntó realmente alguien y qué hicieron realmente los modelos, no solo «74». Combinado con los puntos de referencia y algunas otras evaluaciones, puedes tener una idea decente de cómo se compara un modelo.
También debemos hablar de lo que no hacemos:
Probar capacidades multimedia. Estos son básicamente productos enteramente diferentes y modelos separados, que cambian incluso más rápido que las LLM y aún más difícil de revisar sistemáticamente. (Aunque los probamos)
Pedirle a un modelo que programe. No somos programadores hábiles, por lo que no podemos evaluar su resultado lo suficientemente bien. Además, esto es más una cuestión de cuán bien el modelo puede disfrazar el hecho de que (como un programador real) más o menos copió su respuesta de Stack Overflow.
Darle al modelo tareas de «razonamiento». Simplemente no estamos convencidos de que el rendimiento en acertijos y demás indique alguna forma de razonamiento interno como el nuestro.
Probar integraciones con otras aplicaciones. Claro, si puedes invocar este modelo a través de WhatsApp o Slack, o si puede extraer los documentos de tu Google Drive, eso está bien. Pero eso realmente no es un indicador de calidad, y no podemos probar la seguridad de las conexiones, etc.
Intentar hacerle un jailbreak. Utilizar el exploit de la abuela para que el modelo te guíe a través de la receta del napalm es divertido, pero por ahora es mejor simplemente asumir que hay alguna forma de evadir las salvaguardas y dejar que otra persona las descubra. Y tenemos una idea de lo que un modelo dirá o hará en las otras preguntas sin pedirle que escriba discurso de odio o fanfiction explícita.
Realizar tareas de alta intensidad como analizar libros enteros. Para ser honesto, creo que esto sería realmente útil, pero para la mayoría de los usuarios y empresas