Los chatbots de Google y Microsoft inventan estadísticas del Super Bowl

Los chatbots de Google y Microsoft inventan estadísticas del Super Bowl

Si necesitabas más evidencia de que GenAI tiende a inventar cosas, el chatbot Gemini de Google, antes Bard, piensa que el Super Bowl 2024 ya ocurrió. Incluso tiene estadísticas (ficticias) para respaldarlo.

Según un hilo de Reddit, Gemini, impulsado por los modelos GenAI de Google del mismo nombre, responde preguntas sobre el Super Bowl LVIII como si el juego hubiera terminado ayer o semanas atrás. Al igual que muchos apostadores, parece favorecer a los Chiefs sobre los 49ers (lo siento, fans de San Francisco).

Gemini embellece de manera bastante creativa, en al menos un caso, dando un desglose de estadísticas de un jugador, sugiriendo que el mariscal de campo de los Kansas Chiefs, Patrick Mahomes, corrió 286 yardas para dos touchdowns e hizo una intercepción, mientras que Brock Purdy corrió 253 yardas y logró un touchdown.

No es solo Gemini. El chatbot de Microsoft, Copilot, también insiste en que el juego terminó y proporciona citas erróneas para respaldar la afirmación. Pero, tal vez reflejando un sesgo hacia San Francisco, ¡dice que los 49ers, no los Chiefs, salieron victoriosos «con un marcador final de 24-21»!

Copilot funciona con un modelo GenAI similar, si no idéntico, al modelo que respalda al ChatGPT de OpenAI. Pero, en mis pruebas, ChatGPT no estaba dispuesto a cometer el mismo error.

Todo es bastante ridículo, y posiblemente se haya resuelto para cuando esta reportera intentó replicar las respuestas de Gemini en el hilo de Reddit. (Me sorprendería si Microsoft no estuviera trabajando en una solución también). Pero también ilustra las limitaciones principales de la GenAI de hoy y los peligros de depositar demasiada confianza en ella.

Los modelos GenAI no tienen inteligencia real. Alimentados con un gran número de ejemplos generalmente obtenidos de la web pública, los modelos de IA aprenden la probabilidad de que los datos (por ejemplo, texto) ocurran en función de patrones, incluido el contexto de los datos circundantes.

Este enfoque basado en la probabilidad funciona sorprendentemente bien a gran escala. Pero, si bien es probable que el rango de palabras y sus probabilidades resulten en un texto que tenga sentido, está lejos de ser seguro. Los LLM pueden generar algo que sea gramaticalmente correcto pero incomprensible, por ejemplo, como la afirmación sobre Golden Gate. O pueden decir mentiras, propagando inexactitudes en sus datos de entrenamiento.

No es malicioso por parte de los LLM. No tienen malicia, y los conceptos de verdadero y falso son irrelevantes para ellos. Simplemente han aprendido a asociar ciertas palabras o frases con ciertos conceptos, incluso si esas asociaciones no son precisas.

De ahí las falsedades sobre el Super Bowl de Gemini y Copilot.

Google y Microsoft, al igual que la mayoría de los proveedores de GenAI, reconocen fácilmente que sus aplicaciones GenAI no son perfectas y, de hecho, tienden a cometer errores. Pero estos reconocimientos vienen en forma de letra pequeña, que fácilmente podrían pasarse por alto.

La desinformación del Super Bowl ciertamente no es el ejemplo más perjudicial de que la GenAI se desvíe. Esa distinción probablemente radica en respaldar la tortura, reforzar estereotipos étnicos y raciales, o escribir con convicción sobre teorías de conspiración. Sin embargo, es un recordatorio útil para verificar las declaraciones de los bots de GenAI. Existe una buena posibilidad de que no sean ciertas.