El estudio publicado en Nature por investigadores británicos y canadienses liderados por Ilia Shumailov de Oxford revela que los modelos de aprendizaje automático de hoy en día son fundamentalmente vulnerables a un síndrome al que llaman «colapso del modelo». Según escriben en la introducción del documento: «Descubrimos que aprender indiscriminadamente de datos producidos por otros modelos causa un proceso degenerativo llamado ‘colapso del modelo’ – un proceso por el cual, con el tiempo, los modelos olvidan la verdadera distribución de datos subyacente…»
Este fenómeno aparece debido a que los modelos de IA son sistemas de coincidencia de patrones en el fondo: aprenden patrones en sus datos de entrenamiento, luego coinciden con las indicaciones con esos patrones, rellenando los puntos más probables en la línea. Ya sea que preguntes «¿cuál es una buena receta de snickerdoodle?» o «enumera los presidentes de EE.UU. en orden de edad en su inauguración», el modelo básicamente regresa la continuación más probable de esa serie de palabras. Pero si se combinan con el hecho de que la web está siendo invadida por contenido generado por IA, y que los nuevos modelos de IA probablemente estén ingiriendo y entrenando en ese contenido, eso significa que van a ver ¡muchos golden retrievers!
Una situación similar ocurre con los modelos de lenguaje y otros que, esencialmente, favorecen los datos más comunes en su conjunto de entrenamiento para las respuestas – lo cual, para ser sinceros, generalmente es lo correcto. Básicamente, si los modelos continúan comiendo datos de uno al otro, quizás sin siquiera darse cuenta, progresivamente se volverán más extraños y tontos hasta que colapsen. La diversidad y profundidad de los datos de entrenamiento se considera cada vez más el factor más importante en la calidad de un modelo.
En resumen, el colapso del modelo es un desafío potencialmente catastrófico para los modelos de IA y un argumento en contra de los métodos de hoy en día para producir la superinteligencia del mañana. Es crucial abordar este problema si queremos mantener los beneficios del entrenamiento a partir de datos a gran escala extraídos de la web.