En el campo de la salud, los modelos de inteligencia artificial generativa están siendo cada vez más utilizados, en algunos casos prematuramente. Los primeros adoptantes creen que desbloquearán una mayor eficiencia y revelarán información que de otra manera se perdería. Sin embargo, los críticos señalan que estos modelos tienen defectos y sesgos que podrían contribuir a resultados de salud peores.
¿Existe una forma cuantitativa de saber qué tan útil o perjudicial podría ser un modelo al encargarse de tareas como resumir registros de pacientes o responder preguntas relacionadas con la salud?
Hugging Face, la startup de inteligencia artificial, propone una solución en una nueva prueba de referencia llamada Open Medical-LLM. Creada en colaboración con investigadores de la organización sin fines de lucro Open Life Science AI y el Grupo de Procesamiento del Lenguaje Natural de la Universidad de Edimburgo, Open Medical-LLM tiene como objetivo estandarizar la evaluación del rendimiento de los modelos de inteligencia artificial generativa en una variedad de tareas relacionadas con la medicina.
Open Medical-LLM no es exactamente una prueba totalmente nueva, sino más bien una recopilación de conjuntos de pruebas existentes, como MedQA, PubMedQA, MedMCQA, diseñados para evaluar los conocimientos médicos generales y campos relacionados, como anatomía, farmacología, genética y práctica clínica. La prueba contiene preguntas de opción múltiple y abiertas que requieren razonamiento y comprensión médica, extraídas de exámenes de licencia médica de Estados Unidos e India, así como bancos de preguntas de exámenes de biología universitaria.
«Hugging Face describe la prueba como una «evaluación robusta» de los modelos de inteligencia artificial generativos destinados a la salud. Sin embargo, algunos expertos médicos en redes sociales advierten sobre depositar demasiada confianza en Open Medical-LLM, para evitar despliegues mal informados.
Clementine Fourrier, científica investigadora de Hugging Face y coautora de la publicación del blog, estuvo de acuerdo. «Estas tablas de clasificación solo deben usarse como una primera aproximación para explorar qué modelo de inteligencia artificial generativa se adapta mejor a un caso de uso específico, pero luego siempre se necesita una fase de prueba más profunda para examinar los límites y la relevancia del modelo en condiciones reales», respondió Fourrier en Twitter.
Es importante recordar la experiencia de Google cuando intentó implementar una herramienta de detección de retinopatía diabética en sistemas de salud en Tailandia. A pesar de una alta precisión teórica, la herramienta resultó impráctica en pruebas del mundo real, frustrando tanto a pacientes como a enfermeras con resultados inconsistentes y una falta de armonía con las prácticas reales.
A pesar de la utilidad de Open Medical-LLM, y de otras pruebas por el estilo, ninguna prueba puede reemplazar una cuidadosa evaluación en el mundo real. Es extremadamente difícil predecir cómo se traducirá el rendimiento de una herramienta de inteligencia artificial generativa en laboratorio a hospitales y clínicas, y, quizás más importante aún, cómo evolucionarán los resultados con el tiempo.