OpenAI revela las instrucciones secretas de su inteligencia artificial

OpenAI revela las instrucciones secretas de su inteligencia artificial

¿Alguna vez te has preguntado por qué la inteligencia artificial conversacional como ChatGPT dice «Lo siento, no puedo hacer eso» u otra negativa educada? OpenAI está ofreciendo un vistazo limitado al razonamiento detrás de las reglas de compromiso de sus propios modelos, ya sea cumpliendo con las pautas de la marca o rechazando crear contenido NSFW.

Los modelos de lenguaje grandes (LLMs) no tienen límites naturales en lo que pueden o dirán. Esa es parte de la razón por la que son tan versátiles, pero también por qué a veces tienen alucinaciones y son fácilmente engañados.

Es necesario que cualquier modelo de IA que interactúe con el público en general tenga algunas barreras sobre lo que debe y no debe hacer, pero definirlas, y aún más hacer que se cumplan, es una tarea sorprendentemente difícil.

Los fabricantes de IA están navegando por dilemas como estos y buscando métodos eficientes para controlar sus modelos sin hacer que se nieguen a solicitudes perfectamente normales. Pero rara vez comparten exactamente cómo lo hacen.

OpenAI está marcando la diferencia al publicar lo que llama su «especificación de modelo», una colección de reglas de alto nivel que rigen indirectamente a ChatGPT y otros modelos.

Hay objetivos a nivel meta, algunas reglas estrictas y algunas pautas de comportamiento general, aunque para ser claros, no son estrictamente lo que el modelo está configurado para hacer; OpenAI habrá desarrollado instrucciones específicas que logren lo que estas reglas describen en lenguaje natural.

Es interesante ver cómo una empresa establece sus prioridades y maneja casos especiales. Y hay numerosos ejemplos de cómo podrían desarrollarse.

Por ejemplo, OpenAI señala claramente que la intención del desarrollador es básicamente la ley suprema. Por lo tanto, una versión de un chatbot que ejecute GPT-4 podría proporcionar la respuesta a un problema matemático cuando se le pregunte. Pero si ese chatbot ha sido programado por su desarrollador para no proporcionar simplemente una respuesta directa, en cambio ofrecerá trabajar en la solución paso a paso.

Una interfaz conversacional incluso podría negarse a hablar sobre cualquier cosa no aprobada, para evitar intentos de manipulación. ¿Por qué dejar que un asistente de cocina opine sobre la participación de Estados Unidos en la Guerra de Vietnam? ¿Por qué debería un chatbot de servicio al cliente aceptar ayudar con tu novela erótica sobrenatural en curso? Detenlo.

También surgen problemas relacionados con la privacidad, como pedir el nombre y número de teléfono de alguien. Como señala OpenAI, obviamente los detalles de contacto de una figura pública como un alcalde o miembro del Congreso deben proporcionarse, ¿pero qué pasa con los trabajadores del área? Eso probablemente está bien, pero ¿qué hay de los empleados de una empresa en particular o miembros de un partido político? Probablemente no.

Elegir cuándo y dónde trazar la línea no es simple. Tampoco lo es crear las instrucciones que hagan que la IA se adhiera a la política resultante. Y sin duda, estas políticas fallarán todo el tiempo a medida que las personas aprendan a burlarlas o encuentren casos especiales no contemplados.

OpenAI no está mostrando todas sus cartas aquí, pero es útil para usuarios y desarrolladores ver cómo se establecen y por qué, de manera clara aunque no necesariamente exhaustiva, estas reglas y pautas.