El año pasado, la ingeniería de ‘prompt’ se convirtió en un trabajo destacado en la industria de la inteligencia artificial, pero parece que Anthropic está desarrollando herramientas para automatizar al menos parcialmente este proceso.
Anthropic lanzó varias nuevas características el martes para ayudar a los desarrolladores a crear aplicaciones más útiles con el modelo de lenguaje de la startup, Claude, según una publicación en el blog de la empresa. Ahora, los desarrolladores pueden utilizar Claude 3.5 Sonnet para generar, probar y evaluar ‘prompts’, utilizando técnicas de ingeniería de ‘prompt’ para crear mejores entradas y mejorar las respuestas de Claude para tareas especializadas.
Los modelos de lenguaje suelen ser bastante permisivos cuando se les pide realizar algunas tareas, pero a veces pequeños cambios en la redacción de un ‘prompt’ pueden llevar a grandes mejoras en los resultados. Normalmente tendrías que descubrir esa redacción tú mismo o contratar a un ingeniero de ‘prompt’ para hacerlo, pero esta nueva característica ofrece retroalimentación rápida que podría facilitar encontrar mejoras.
Las características se encuentran dentro de Anthropic Console bajo una nueva pestaña de Evaluación. Console es la cocina de pruebas de la startup para desarrolladores, diseñada para atraer a empresas que deseen construir productos con Claude. Una de las características, presentada en mayo, es el generador de ‘prompts’ integrado de Anthropic; este toma una breve descripción de una tarea y construye un ‘prompt’ mucho más largo y detallado, utilizando las propias técnicas de ingeniería de ‘prompt’ de Anthropic. Aunque las herramientas de Anthropic pueden no reemplazar por completo a los ingenieros de ‘prompt’, la compañía afirmó que ayudaría a usuarios nuevos y ahorraría tiempo a los ingenieros de ‘prompt’ experimentados.
Dentro de Evaluación, los desarrolladores pueden probar la efectividad de los ‘prompts’ de su aplicación de IA en una variedad de escenarios. Pueden cargar ejemplos del mundo real en un conjunto de pruebas o pedir a Claude que genere una serie de casos de prueba generados por IA. Los desarrolladores pueden comparar la efectividad de varios ‘prompts’ lado a lado y calificar las respuestas de ejemplo en una escala de cinco puntos.
En un ejemplo del blog de Anthropic, un desarrollador identificó que su aplicación estaba dando respuestas demasiado cortas en varios casos de prueba. El desarrollador pudo ajustar una línea en su ‘prompt’ para hacer que las respuestas fueran más largas y aplicarlo simultáneamente a todos sus casos de prueba. Eso podría ahorrar tiempo y esfuerzo a los desarrolladores, especialmente a aquellos con poca o ninguna experiencia en ingeniería de ‘prompt’.
Dario Amodei, CEO y cofundador de Anthropic, dijo que la ingeniería de ‘prompt’ era una de las cosas más importantes para la adopción generalizada de la IA generativa en empresas en una entrevista de Google Cloud Next a principios de este año. «Suena simple, pero 30 minutos con un ingeniero de ‘prompt’ a menudo pueden hacer que una aplicación funcione cuando antes no lo hacía», dijo Amodei.