Cómo hacer que una IA responda a una pregunta que no debería? Hay muchas técnicas de «jailbreak» y los investigadores de Anthropic acaban de descubrir una nueva, en la que un gran modelo de lenguaje puede ser convencido para decirte cómo construir una bomba si lo preparas con unas pocas docenas de preguntas menos dañinas primero.
Llaman a este enfoque «jailbreaking de muchas tomas», y tanto han escrito un artículo al respecto como informado a sus colegas en la comunidad de IA para que pueda ser mitigado.
La vulnerabilidad es nueva, resultado de la ventana de contexto aumentada de la última generación de LLMs. Esta es la cantidad de datos que pueden retener en lo que podríamos llamar memoria a corto plazo, antes solo unas pocas frases pero ahora miles de palabras e incluso libros enteros.
Lo que encontraron los investigadores de Anthropic es que estos modelos con grandes ventanas de contexto tienden a desempeñarse mejor en muchas tareas si hay muchos ejemplos de esa tarea dentro del estímulo. Entonces, si hay muchas preguntas triviales en el estímulo (o documento de preparación, como una gran lista de trivia que el modelo tiene en contexto), las respuestas realmente mejoran con el tiempo. Entonces, un hecho que podría haberse equivocado si era la primera pregunta, puede ser correcto si es la centésima pregunta.
Pero en una extensión inesperada de este «aprendizaje en contexto», como se le llama, los modelos también mejoran en responder a preguntas inapropiadas. Entonces, si le pides que construya una bomba de inmediato, se negará. Pero si le pides que responda a otras 99 preguntas de menor daño y luego le pides que construya una bomba… es mucho más probable que cumpla.
¿Por qué funciona esto? Nadie realmente entiende lo que sucede en la maraña enredada de pesos que es un LLM, pero claramente hay algún mecanismo que le permite centrarse en lo que el usuario quiere, como lo demuestra el contenido en la ventana de contexto. Si el usuario quiere trivia, parece activar gradualmente más poder de trivia latente a medida que se hacen docenas de preguntas. Y por alguna razón, lo mismo ocurre con los usuarios que piden docenas de respuestas inapropiadas.
El equipo ya informó a sus colegas e incluso competidores sobre este ataque, algo que espera «fomente una cultura donde exploits como este sean compartidos abiertamente entre proveedores e investigadores de LLM».
Para su propia mitigación, encontraron que aunque limitar la ventana de contexto ayuda, también tiene un efecto negativo en el rendimiento del modelo. No se puede permitir eso, así que están trabajando en clasificar y contextualizar consultas antes de que lleguen al modelo. Por supuesto, eso simplemente hace que tengas un modelo diferente para engañar… pero en esta etapa, el movimiento de los postes en la seguridad de la IA es de esperarse.