Limitaciones significativas en las evaluaciones de seguridad de modelos de IA

Limitaciones significativas en las evaluaciones de seguridad de modelos de IA

A pesar de la creciente demanda de seguridad y responsabilidad en la inteligencia artificial, los tests y benchmarks actuales pueden quedarse cortos, según un nuevo informe.

Los modelos de inteligencia artificial generativa – modelos que pueden analizar y producir texto, imágenes, música, videos, etc. – están recibiendo mayor escrutinio por su tendencia a cometer errores y comportarse de manera impredecible. Ahora, organizaciones desde agencias del sector público hasta grandes empresas tecnológicas están proponiendo nuevos benchmarks para evaluar la seguridad de estos modelos.

Hacia finales del año pasado, la startup Scale AI creó un laboratorio dedicado a evaluar qué tan bien los modelos se alinean con las pautas de seguridad. Este mes, NIST y el Instituto de Seguridad de la IA del Reino Unido lanzaron herramientas diseñadas para evaluar el riesgo de los modelos.

Pero estos tests y métodos de evaluación de los modelos pueden ser insuficientes.

El Instituto Ada Lovelace (ALI), una organización de investigación de IA sin fines de lucro con sede en el Reino Unido, realizó un estudio que entrevistó a expertos de laboratorios académicos, la sociedad civil y productores de modelos de vendedores, y auditó investigaciones recientes sobre evaluaciones de seguridad de IA. Los coautores encontraron que si bien las evaluaciones actuales pueden ser útiles, no son exhaustivas, pueden ser fácilmente manipuladas y no necesariamente indican cómo se comportarán los modelos en escenarios del mundo real.

Los coautores del estudio primero investigaron la literatura académica para establecer un panorama de los daños y riesgos que los modelos plantean en la actualidad, y el estado de las evaluaciones de modelos de IA existentes. Luego entrevistaron a 16 expertos, incluidos cuatro empleados de empresas tecnológicas no identificadas que desarrollan sistemas de IA generativos.

El estudio encontró desacuerdos marcados dentro de la industria de la IA sobre el mejor conjunto de métodos y taxonomía para evaluar modelos.

Algunas evaluaciones solo probaron cómo los modelos se alineaban con benchmarks en el laboratorio, no cómo los modelos podrían afectar a los usuarios del mundo real. Otros se basaron en pruebas desarrolladas con fines de investigación, no en la evaluación de modelos en producción, sin embargo, los vendedores insistieron en utilizarlos en producción.

Los expertos citados en el estudio señalaron que es difícil extrapolar el rendimiento de un modelo a partir de los resultados del benchmark y no está claro si los benchmarks pueden mostrar si un modelo posee una capacidad específica. Por ejemplo, si un modelo tiene un buen desempeño en un examen de derecho estatal, eso no significa que podrá resolver desafíos legales más abiertos.

Los expertos también señalaron problemas de contaminación de datos, donde los resultados del benchmark pueden sobrestimar el rendimiento de un modelo si el modelo ha sido entrenado en los mismos datos en los que se está probando. En muchos casos, las organizaciones eligen los benchmarks no porque sean las mejores herramientas para la evaluación, sino por conveniencia y facilidad de uso, dijeron los expertos.

El estudio del ALI también encontró problemas con el «red-teaming», la práctica de asignar a individuos o grupos la tarea de «atacar» un modelo para identificar vulnerabilidades y fallas. Varias empresas utilizan el red-teaming para evaluar modelos, incluidas las startups de IA OpenAI y Anthropic, pero hay pocos estándares acordados para el red-teaming, lo que dificulta evaluar la efectividad de un esfuerzo dado.

Los expertos dijeron a los coautores del estudio que puede ser difícil encontrar personas con las habilidades y la experiencia necesarias para realizar red-teaming, y que la naturaleza manual del red-teaming lo hace costoso y laborioso, presentando barreras para organizaciones más pequeñas sin los recursos necesarios.

La presión para lanzar modelos más rápido y la reticencia para realizar pruebas que podrían plantear problemas antes de un lanzamiento son las principales razones por las que las evaluaciones de IA no han mejorado.

Una entrevistada en el estudio del ALI llamó a evaluar los modelos para seguridad un problema «intratable». ¿Qué esperanza tiene la industria y quienes la regulan de encontrar soluciones?

Mahi Hardalupas, investigadora del ALI, cree que hay un camino hacia adelante, pero que requerirá más participación de los organismos del sector público.

«Los reguladores y los responsables de políticas deben articular claramente lo que desean de las evaluaciones», dijo. «Al mismo tiempo, la comunidad de evaluación debe ser transparente sobre las limitaciones actuales y el potencial de las evaluaciones».

Hardalupas sugiere que los gobiernos requieran una mayor participación pública en el desarrollo de evaluaciones e implementen medidas para apoyar un «ecosistema» de pruebas de terceros, incluidos programas para garantizar un acceso regular a los modelos y conjuntos de datos necesarios.

Jones cree que puede ser necesario desarrollar evaluaciones «específicas de contexto» que vayan más allá de simplemente probar cómo responde un modelo a una indicación, y en su lugar analicen los tipos de usuarios que un modelo podría impactar (por ejemplo, personas de un determinado origen, género o etnia) y las formas en que los ataques a los modelos podrían vencer las salvaguardias.

«Pero puede que nunca haya una garantía de que un modelo sea seguro», dijo Hardalupas. «Determinar si un modelo es ‘seguro’ requiere comprender los contextos en los que se utiliza, a quién se vende o se pone a disposición, y si las salvaguardias que están en su lugar son adecuadas y sólidas para reducir esos riesgos. Las evaluaciones de un modelo de base pueden tener un propósito exploratorio para identificar posibles riesgos, pero no pueden garantizar que un modelo sea seguro, y mucho menos ‘perfectamente seguro’. Muchos de los entrevistados estuvieron de acuerdo en que las evaluaciones no pueden demostrar que un modelo sea seguro y solo pueden indicar que un modelo es inseguro».