Anthropic está lanzando un programa para financiar el desarrollo de nuevos tipos de referencias capaces de evaluar el rendimiento e impacto de los modelos de IA, incluyendo modelos generativos como su propio Claude.
Revelado el lunes, el programa de Anthropic otorgará subvenciones a organizaciones externas que puedan, como la empresa explica en una publicación de blog, «medir de manera efectiva las capacidades avanzadas en modelos de IA». Aquellos interesados pueden presentar solicitudes que serán evaluadas de forma continua.
«Nuestra inversión en estas evaluaciones tiene como objetivo elevar todo el campo de la seguridad de la IA, proporcionando herramientas valiosas que beneficien a todo el ecosistema», escribió Anthropic en su blog oficial. «El desarrollo de evaluaciones de alta calidad y relevantes para la seguridad sigue siendo un desafío, y la demanda supera la oferta».
Como hemos destacado anteriormente, la IA tiene un problema de referencias. Las referencias más comúnmente citadas para la IA hoy en día no logran capturar cómo utiliza el usuario promedio los sistemas que se están probando. También existen preguntas sobre si algunas referencias, especialmente las lanzadas antes del amanecer de la IA generativa moderna, realmente miden lo que pretenden medir, dada su antigüedad.
La solución de alto nivel, más difícil de lo que parece, que Anthropic está proponiendo es crear referencias desafiantes con un enfoque en la seguridad de la IA y sus implicaciones sociales a través de nuevas herramientas, infraestructura y métodos.
La empresa solicita específicamente pruebas que evalúen la capacidad de un modelo para llevar a cabo ciberataques, «mejorar» armas de destrucción masiva (por ejemplo, armas nucleares) y manipular o engañar a las personas (por ejemplo, a través de deepfakes o desinformación). Para los riesgos de la IA relacionados con la seguridad nacional y la defensa, Anthropic dice que está comprometido a desarrollar una especie de «sistema de alerta temprana» para identificar y evaluar riesgos, aunque no revela en la publicación del blog en qué consistiría dicho sistema.
Anthropic también dice que tiene la intención de que su nuevo programa apoye la investigación en referencias y tareas «de extremo a extremo» que exploren el potencial de la IA para ayudar en estudios científicos, conversar en múltiples idiomas y mitigar prejuicios arraigados, así como para auto-censurar la toxicidad.
Para lograr todo esto, Anthropic visualiza nuevas plataformas que permitan a expertos en la materia desarrollar sus propias evaluaciones y ensayos a gran escala de modelos que involucren «miles» de usuarios. La empresa dice que ha contratado a un coordinador a tiempo completo para el programa y que podría adquirir o expandir proyectos que considere que tienen potencial para escalar.
«Ofrecemos una variedad de opciones de financiamiento adaptadas a las necesidades y etapa de cada proyecto», escribe Anthropic en la publicación, aunque un portavoz de Anthropic se negó a proporcionar más detalles sobre esas opciones. «Los equipos tendrán la oportunidad de interactuar directamente con expertos en el dominio de Anthropic, desde el equipo rojo de vanguardia, afinación, confianza y seguridad, entre otros equipos relevantes».
El esfuerzo de Anthropic para apoyar nuevas referencias de IA es loable, siempre y cuando haya suficiente dinero y personal detrás de él. Pero dadas las ambiciones comerciales de la empresa en la carrera de la IA, puede ser difícil confiar completamente en ello.
En la publicación del blog, Anthropic es bastante transparente sobre el hecho de que quiere que ciertas evaluaciones que financia se alineen con las clasificaciones de seguridad de la IA que desarrollaron (con cierta contribución de terceros como la organización de investigación sin fines de lucro METR). Eso está dentro de la prerrogativa de la empresa. Pero también podría forzar a los solicitantes del programa a aceptar definiciones de IA «segura» o «peligrosa» con las que podrían no estar completamente de acuerdo.
Una parte de la comunidad de la IA también es probable que tenga objeciones a las referencias de Anthropic a riesgos de IA «catastróficos» y «engañosos», como los riesgos de las armas nucleares. Muchos expertos dicen que hay poca evidencia que sugiera que la IA tal como la conocemos obtendrá capacidades que pongan fin al mundo y que superen a los humanos en cualquier momento cercano, si es que alguna vez lo hace. Las afirmaciones de una «superinteligencia» inminente solo sirven para desviar la atención de los problemas regulatorios de la IA del día, como las tendencias «alucinantes» de la IA, añaden estos expertos.
En su publicación, Anthropic escribe que espera que su programa sirva como «un catalizador para el progreso hacia un futuro donde la evaluación exhaustiva de la IA sea un estándar de la industria». Esa es una misión con la que muchos esfuerzos abiertos y corporativos no afiliados pueden identificarse para crear mejores referencias de IA. Pero queda por verse si esos esfuerzos estarán dispuestos a unirse a una empresa de IA cuya lealtad en última instancia se encuentre con los accionistas.