Una de las técnicas más ampliamente utilizadas para hacer que los modelos de IA sean más eficientes, la cuantificación, tiene límites, y la industria podría estar acercándose rápidamente a ellos.
En el contexto de la IA, la cuantificación se refiere a reducir el número de bits, las unidades más pequeñas que una computadora puede procesar, necesarios para representar información. Considera esta analogía: cuando alguien pregunta la hora, probablemente dirías «mediodía», no «doce cero cero, un segundo y cuatro milisegundos». Eso es cuantificación; ambas respuestas son correctas, pero una es ligeramente más precisa. La cantidad de precisión que realmente necesitas depende del contexto.
Los modelos de IA constan de varios componentes que pueden ser cuantificados, en particular los parámetros, las variables internas que los modelos utilizan para hacer predicciones o decisiones. Esto es conveniente, considerando que los modelos realizan millones de cálculos cuando se ejecutan. Los modelos cuantificados con menos bits representando sus parámetros son menos exigentes matemáticamente, y por lo tanto computacionalmente. Pero la cuantificación puede tener más compensaciones de lo que se asumía anteriormente.
Según un estudio de investigadores de Harvard, Stanford, MIT, Databricks y Carnegie Mellon, los modelos cuantificados funcionan peor si la versión original no cuantificada del modelo fue entrenada durante mucho tiempo con mucha información. En otras palabras, en cierto punto, puede ser mejor entrenar un modelo más pequeño en lugar de reducir uno grande. Esto podría ser malas noticias para las empresas de IA que entrenan modelos extremadamente grandes y luego los cuantifican en un esfuerzo por hacerlos más económicos de servir.
Los efectos ya se están manifestando. Hace unos meses, desarrolladores y académicos informaron que cuantizar el modelo Llama 3 de Meta tendía a ser «más perjudicial» en comparación con otros modelos, posiblemente debido a la forma en que fue entrenado.
«En mi opinión, el principal costo para todos en IA es y seguirá siendo la inferencia, y nuestro trabajo muestra una forma importante de reducirlo que no funcionará para siempre,» dijo Tanishq Kumar, un estudiante de matemáticas de Harvard y el primer autor del artículo, a TechCrunch.
A diferencia de lo que se cree comúnmente, la inferencia de modelos de IA, como cuando ChatGPT responde una pregunta, a menudo es más costosa en conjunto que el entrenamiento del modelo. Las principales pruebas sugieren que aumentar eventualmente proporciona rendimientos decrecientes; Anthropic y Google informaron recientemente que entrenaron enormes modelos que no cumplieron con las expectativas internas. Pero hay poco indicio de que la industria esté lista para alejarse significativamente de estos enfoques de escalamiento arraigados.
Entonces, si los laboratorios son reacios a entrenar modelos en conjuntos de datos más pequeños, ¿hay una manera de hacer que los modelos sean menos susceptibles a la degradación? Posiblemente. Kumar y coautores descubrieron que entrenar modelos en «baja precisión» puede hacerlos más robustos.
«La clave de nuestro trabajo es que existen limitaciones que no se pueden evitar ingenuamente,» concluyó Kumar. «Esperamos que nuestro trabajo añada matices a la discusión que a menudo busca configuraciones de baja precisión cada vez más bajas para el entrenamiento y la inferencia.»