¿Me puedes escuchar ahora? Acústica AI para combatir el ruido en el audio con inteligencia artificial generativa

¿Me puedes escuchar ahora? Acústica AI para combatir el ruido en el audio con inteligencia artificial generativa

La grabación ruidosa de entrevistas y discursos es la pesadilla de los ingenieros de audio. Pero una startup alemana espera solucionar eso con un enfoque técnico único que utiliza inteligencia artificial generativa para mejorar la claridad de las voces en video.

Hoy, AI-coustics salió del anonimato con una financiación de €1.9 millones. Según el cofundador y CEO Fabian Seipel, la tecnología de AI-coustics va más allá de la supresión de ruido estándar para funcionar en — y con — cualquier dispositivo y altavoz.

«**Nuestra misión principal es hacer que cada interacción digital, ya sea en una videollamada, un dispositivo de consumo o un video casual en redes sociales, sea tan clara como una transmisión de un estudio profesional**», dijo Seipel en una entrevista con TechCrunch.

Seipel, un ingeniero de audio de formación, cofundó AI-coustics con Corvin Jaedicke, profesor de aprendizaje automático en la Universidad Técnica de Berlín, en 2021. Seipel y Jaedicke se conocieron mientras estudiaban audioteconología en la TU Berlin, donde a menudo se encontraban con una mala calidad de audio en los cursos en línea y tutoriales que tenían que tomar.

«**Hemos sido impulsados por una misión personal para superar el desafío persistente de la mala calidad de audio en las comunicaciones digitales**», dijo Seipel. «**Si bien mi audición está ligeramente deteriorada por la producción musical en mis veinte años, siempre he tenido problemas con el contenido en línea y las conferencias, lo que nos llevó a trabajar en la calidad y la inteligibilidad del habla en primer lugar**».

El mercado de software impulsado por inteligencia artificial para supresión de ruido y mejora de la voz es muy sólido. Los rivales de AI-coustics incluyen Insoundz, que utiliza inteligencia artificial generativa para mejorar clips de voz en streaming y pregrabados, y Veed.io, una suite de edición de video con herramientas para eliminar ruidos de fondo de clips.

Pero Seipel dice que AI-coustics tiene un enfoque único para desarrollar los mecanismos de inteligencia artificial que hacen el trabajo de reducción de ruido.

La startup utiliza un modelo entrenado en muestras de voz grabadas en el estudio de la startup en Berlín, la ciudad de origen de AI-coustics. Personas son pagadas para grabar muestras — Seipel no quiso decir cuánto — que luego se agregan a un conjunto de datos para entrenar el modelo de reducción de ruido de AI-coustics.

«**Desarrollamos un enfoque único para simular artefactos de audio y problemas — por ejemplo, ruido, reverberación, compresión, micrófonos de baja frecuencia, distorsión, distorsión, y así sucesivamente — durante el proceso de entrenamiento**», dijo Seipel.

Apuesto a que algunos tendrán problemas con el esquema de compensación única de AI-coustics para creadores, dado que el modelo en el que la startup está entrenando podría resultar bastante lucrativo a largo plazo. (Hay un saludable debate sobre si los creadores de datos de entrenamiento para modelos de IA merecen regalías por sus contribuciones). Pero tal vez la mayor preocupación, más inmediata, es el sesgo.

Está bien establecido que los algoritmos de reconocimiento de voz pueden desarrollar sesgos — sesgos que terminan perjudicando a los usuarios. Un estudio publicado en las Actas de la Academia Nacional de Ciencias mostró que los algoritmos de reconocimiento de voz de las principales empresas eran dos veces más propensos a transcribir incorrectamente el audio de oradores negros que el de oradores blancos.

En un esfuerzo por combatir esto, Seipel dice que AI-coustics se está centrando en reclutar contribuyentes de muestras de voz «diversos». Agregó: «**Tamaño y diversidad son clave para eliminar el sesgo y hacer que la tecnología funcione para todos los idiomas, identidades de hablantes, edades, acentos y géneros**».

No fue la prueba más científica, pero subí tres clips de video — una entrevista con un granjero del siglo XVIII, una demostración de conducción de coches y una protesta del conflicto Israel-Palestina — a la plataforma de AI-coustics para ver qué tan bien funcionaba con cada uno. AI-coustics cumplió su promesa de mejorar la claridad; a mis oídos, los clips procesados tenían mucho menos ruido de fondo ambiente ahogando a los hablantes.

Aquí está el clip del granjero del siglo XVIII antes:

Y después:

Seipel ve la tecnología de AI-coustics siendo utilizada tanto para mejorar el habla en tiempo real como grabada, y tal vez incluso siendo incrustada en dispositivos como barras de sonido, teléfonos inteligentes y auriculares para aumentar automáticamente la claridad vocal. Actualmente, AI-coustics ofrece una aplicación web y API para procesamiento posterior de audio y video, y un SDK que integra la plataforma de AI-coustics en flujos de trabajo existentes, aplicaciones y hardware.

Seipel dice que AI-coustics — que genera ingresos a través de una combinación de suscripciones, precios bajo demanda y licencias — tiene cinco clientes empresariales y 20,000 usuarios (aunque no todos pagan) en la actualidad. En la hoja de ruta para los próximos meses está la ampliación del equipo de cuatro personas de la empresa y la mejora del modelo subyacente de mejora del habla.

«**Antes de nuestra inversión inicial, AI-coustics llevaba a cabo una operación bastante ajustada con una baja tasa de gastos para sobrevivir a las dificultades del mercado de inversión de capital de riesgo**», dijo Seipel. «**AI-coustics cuenta ahora con una red sustancial de inversores y mentores en Alemania y el Reino Unido para recibir asesoramiento. Una sólida base tecnológica y la capacidad de abordar diferentes mercados con la misma base de datos y tecnología central le dan a la empresa flexibilidad y la capacidad para realizar pequeños giros**».

Al ser preguntado sobre si la tecnología de mastering de audio como AI-coustics podría robar empleos como temen algunos analistas, Seipel señaló el potencial de AI-coustics para acelerar tareas que actualmente recaen en ingenieros de audio humanos.

«**Un estudio de creación de contenido o un gerente de broadcast puede ahorrar tiempo y dinero automatizando partes del proceso de producción de audio con AI-coustics manteniendo la calidad de habla más alta**», dijo. «**La calidad de habla y la inteligibilidad siguen siendo un problema molesto en casi todos los dispositivos de consumo o profesionales, así como en la producción o consumo de contenido. Cualquier aplicación donde se esté grabando, procesando o transmitiendo habla puede potencialmente beneficiarse de nuestra tecnología**».

La financiación se materializó en una ronda de capital y deuda de Connect Ventures, Inovia Capital, FOV Ventures y el director financiero de Ableton, Jan Bohl.