Investigadores de Microsoft han revelado una nueva herramienta artificial que puede crear avatares humanos profundamente realistas, pero no ofrecieron un calendario para hacerla disponible al público, citando preocupaciones sobre facilitar contenido deep fake.
El modelo de IA conocido como VASA-1, por «habilidades visuales afectivas», puede crear un video animado de una persona hablando, con movimientos de labios sincronizados, usando solo una imagen y un clip de audio de voz.
Los investigadores de desinformación temen el uso desenfrenado de aplicaciones impulsadas por IA para crear imágenes, videos y clips de audio «deep fake» en un año electoral crucial.
«Nos oponemos a cualquier comportamiento que cree contenidos engañosos o perjudiciales de personas reales», escribieron los autores del informe VASA-1, publicado esta semana por Microsoft Research Asia.
«Estamos dedicados a desarrollar la IA de manera responsable, con el objetivo de avanzar en el bienestar humano», dijeron.
«No tenemos planes de lanzar una demostración en línea, una API, un producto, detalles adicionales de implementación o cualquier oferta relacionada hasta que estemos seguros de que la tecnología se utilizará de manera responsable y de acuerdo con las regulaciones adecuadas».
Los investigadores de Microsoft dijeron que la tecnología puede capturar un amplio espectro de matices faciales y movimientos naturales de la cabeza.
«Abre el camino para interacciones en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos», dijeron los investigadores en la publicación.
VASA puede trabajar con fotos artísticas, canciones y habla no inglesa, según Microsoft.
Los investigadores elogiaron los posibles beneficios de la tecnología, como proporcionar maestros virtuales a estudiantes o apoyo terapéutico a personas necesitadas.
«No tiene la intención de crear contenido que se use para engañar o engañar», dijeron.
Los videos de VASA todavía tienen «artefactos» que revelan que son generados por IA, según la publicación.
El líder tecnológico de ProPublica, Ben Werdmuller, dijo que estaría «emocionado de escuchar a alguien usando esto para representarlos en una reunión de Zoom por primera vez».
«¿Cómo fue? ¿Alguien se dio cuenta?» dijo en la red social Threads.
El creador de ChatGPT, OpenAI, en marzo reveló una herramienta de clonación de voz llamada «Voice Engine» que puede duplicar efectivamente el habla de alguien basándose en una muestra de audio de 15 segundos.
Pero dijo que estaba «tomando un enfoque cauteloso e informado para un lanzamiento más amplio debido al potencial de uso indebido de la voz sintética».
A principios de este año, un consultor que trabajaba para un candidato presidencial demócrata de bajo perfil admitió que estaba detrás de una llamada robocall que impersonaba a Joe Biden enviada a votantes en Nueva Hampshire, diciendo que estaba tratando de resaltar los peligros de la IA.
La llamada presentaba lo que sonaba como la voz de Biden instando a la gente a no votar en las primarias de enero en el estado, lo que provocó alarma entre expertos que temen una avalancha de desinformación deep fake impulsada por IA en la carrera presidencial de 2024.