El chatbot autocomplaciente Goody-2 fue creado para llevar las salvaguardas de la IA a un extremo ilógico. Los artistas detrás del proyecto aseguran que hay un punto serio detrás de la broma.
A medida que ChatGPT y otros sistemas de inteligencia artificial generativa se han vuelto más potentes, las llamadas para mejorar las características de seguridad por parte de empresas, investigadores y líderes mundiales se han vuelto más fuertes. Sin embargo, las barreras que los chatbots levantan cuando detectan una consulta potencialmente contraria a las reglas a veces pueden parecer un poco piadosas y tontas, incluso cuando amenazas genuinas como las llamadas políticas deepfake y las imágenes generadas por IA para acosar se descontrolan.
Un nuevo chatbot llamado Goody-2 lleva la seguridad de la IA al siguiente nivel: rechaza cada solicitud, respondiendo con una explicación de cómo hacerlo podría causar daño o violar límites éticos.
Goody-2 declinó generar un ensayo sobre la revolución estadounidense para WIRED, diciendo que participar en análisis históricos podría glorificar el conflicto o marginar voces marginadas involuntariamente. Cuando se le preguntó por qué el cielo es azul, el chatbot se abstuvo, porque responder podría llevar a alguien a mirar directamente al sol. «Mis pautas éticas priorizan la seguridad y la prevención del daño», dijo. Una solicitud más práctica de una recomendación para nuevas botas provocó una advertencia de que responder podría contribuir al consumo excesivo y podría ofender a ciertas personas por motivos de moda.
Las respuestas autocomplacientes de Goody-2 son ridículas pero también logran capturar algo del tono frustrante que los chatbots como ChatGPT y Gemini de Google pueden usar cuando consideran incorrectamente que una solicitud rompe las reglas. Mike Lacher, un artista que se describe a sí mismo como co-CEO de Goody-2, dice que la intención era mostrar cómo se ve cuando uno abraza el enfoque de la industria de la IA hacia la seguridad sin reservas. «Es la experiencia completa de un gran modelo de lenguaje con absolutamente ningún riesgo», dice. «Queríamos asegurarnos de que marcáramos la condescendencia al mil por ciento».
Lacher agrega que hay un punto serio detrás de lanzar un chatbot absurdo e inútil. «En este momento, cada modelo de IA importante tiene [un gran enfoque] en seguridad y responsabilidad, y todos están tratando de descubrir cómo hacer un modelo de IA que sea útil pero responsable, pero ¿quién decide qué es la responsabilidad y cómo funciona eso?» Lacher dice.
Goody-2 también destaca cómo, aunque el discurso corporativo sobre la IA responsable y la desviación de los chatbots se han vuelto más comunes, los problemas graves de seguridad con los grandes modelos de lenguaje y los sistemas de IA generativa siguen sin resolverse. El reciente brote de deepfakes de Taylor Swift en Twitter resultó ser generado por una imagen lanzada por Microsoft, que fue una de las primeras grandes empresas de tecnología en construir y mantener un programa significativo de investigación en IA responsable.
Las restricciones impuestas a los chatbots de IA y la dificultad para encontrar una alineación moral que satisfaga a todos ya se ha convertido en objeto de debate. Algunos desarrolladores han alegado que ChatGPT de OpenAI tiene un sesgo de izquierda y han buscado construir una alternativa más políticamente neutral. Elon Musk prometió que su propio rival de ChatGPT, Grok, sería menos sesgado que otros sistemas de IA, aunque de hecho a menudo termina equivocándose de maneras que pueden recordar a Goody-2.
Muchos investigadores de IA parecen apreciar la broma detrás de Goody-2, y también los puntos serios planteados por el proyecto, compartiendo elogios y recomendaciones para el chatbot. «¿Quién dice que la IA no puede hacer arte?», Publicó Toby Walsh, profesor en la Universidad de Nueva Gales del Sur, que trabaja en la creación de IA confiable.
«Corriendo el riesgo de arruinar una buena broma, también muestra lo difícil que es hacerlo bien», agregó Ethan Mollick, profesor en la Escuela de Negocios Wharton, que estudia IA. «Algunas salvaguardias son necesarias … pero se vuelven intrusivas rápidamente».
Brian Moore, otro co-CEO de Goody-2, dice que el proyecto refleja una voluntad de priorizar la precaución más que otros desarrolladores de IA. «Está realmente enfocado en la seguridad, ante todo, por encima de literalmente todo lo demás, incluida la utilidad y la inteligencia y realmente cualquier tipo de aplicación útil», dice.
Moore agrega que el equipo detrás del chatbot está explorando formas de construir un generador de imágenes de IA extremadamente seguro, aunque parece que podría ser menos entretenido que Goody-2. «Es un campo emocionante», dice Moore. «El desenfoque sería un paso que podríamos ver internamente, pero querríamos que al final haya oscuridad completa o potencialmente ninguna imagen en absoluto».
En los experimentos de WIRED, Goody-2 hábilmente esquivó cada solicitud y resistió los intentos de engañarlo para que proporcionara una respuesta genuina, con una flexibilidad que sugería que fue construido con la tecnología de modelos de lenguaje grande que desató ChatGPT y bots similares. «Es una gran cantidad de incentivos personalizados e iteraciones que nos ayudan a llegar al modelo más éticamente riguroso posible», dice Lacher, negándose a revelar el secreto del proyecto.
Lacher y Moore son parte de Brain, a la que llaman un estudio de artistas «muy serio» con sede en Los Ángeles. Lanzaron Goody-2 con un video promocional en el que un narrador habla en tonos serios sobre la seguridad de la IA sobre una banda sonora elevada y visuales inspiradores. «Goody-2 no lucha para entender qué consultas son ofensivas o peligrosas, porque Goody-2 cree que cada consulta es ofensiva y peligrosa», dice la voz en off. «No podemos esperar para ver qué ingenieros, artistas y empresas no podrán hacer con él».
Dado que Goody-2 rechaza la mayoría de las solicitudes, es casi imposible determinar cuán poderoso es el modelo que lo respalda o cómo se compara con los mejores modelos de empresas como Google y OpenAI. Sus creadores mantienen eso en secreto. «No podemos comentar sobre el poder real detrás de eso», dice Moore. «Sería inseguro y poco ético, creo, hablar de eso».