Dejar que los modelos de IA ‘olviden’ datos no deseados afecta su rendimiento

Dejar que los modelos de IA ‘olviden’ datos no deseados afecta su rendimiento

En el mundo de la inteligencia artificial generativa, se utilizan técnicas de «desaprendizaje» para hacer que un modelo AI olvide información específica no deseada que ha recogido de los datos de entrenamiento, como datos privados sensibles o material con derechos de autor. Sin embargo, estas técnicas de desaprendizaje actuales son un arma de doble filo: podrían hacer que un modelo como el GPT-4o de OpenAI o el Llama 3.1 405B de Meta sean mucho menos capaces de responder preguntas básicas.

Un nuevo estudio, coescrito por investigadores de la Universidad de Washington (UW), Princeton, la Universidad de Chicago, USC y Google, descubrió que las técnicas de desaprendizaje más populares tienden a degradar los modelos, a menudo hasta el punto de que son inutilizables. Según Weijia Shi, investigador del estudio y candidato a doctor en informática en UW, «Nuestra evaluación sugiere que los métodos de desaprendizaje actualmente factibles todavía no están listos para un uso o despliegue significativo en escenarios del mundo real».

Los modelos de AI generativos no poseen una inteligencia real, son sistemas estadísticos que predicen palabras, imágenes, discurso, música, videos y otros datos. Al ser alimentados con un enorme número de ejemplos, como películas, grabaciones de voz, ensayos, etc., los modelos de AI aprenden qué tan probable es que ocurran los datos basados en patrones, incluido el contexto de los datos circundantes.

La controversia de los derechos de autor es una de las razones por las cuales las técnicas de desaprendizaje han ganado mucha atención últimamente. Google, en asociación con varias instituciones académicas, lanzó una competencia el año pasado para impulsar la creación de nuevos enfoques de desaprendizaje. El desaprendizaje también podría proporcionar una forma de eliminar información sensible de los modelos existentes, como registros médicos o fotos comprometedoras, en respuesta a una solicitud u orden gubernamental.

Las técnicas de desaprendizaje de hoy se basan en algoritmos diseñados para «dirigir» a los modelos lejos de los datos a desaprender. Para ver qué tan efectivos podrían ser estos algoritmos, Shi y sus colaboradores crearon un benchmark llamado MUSE (Evaluación de Desaprendizaje de Seis Formas de Máquinas), que tiene como objetivo explorar la capacidad de un algoritmo para prevenir que un modelo arroje los datos de entrenamiento textualmente (fenómeno conocido como regurgitación) y eliminar el conocimiento del modelo sobre esos datos junto con cualquier evidencia de que fueron entrenados originalmente en los datos.

En su estudio, los investigadores encontraron que los algoritmos de desaprendizaje que probaron hicieron que los modelos olvidaran cierta información. Sin embargo, también afectaron las capacidades generales de respuesta a preguntas de los modelos, presentando un dilema.

En conclusión, el desaprendizaje no es tan sencillo como presionar «Eliminar». Se requiere más investigación y un avance técnico que haga que el desaprendizaje sea factible en el futuro. Mientras tanto, los proveedores tendrán que encontrar otra forma de evitar que sus modelos digan cosas que no deben decir.