Gladia cree que el procesamiento en tiempo real es la próxima frontera de las APIs de transcripción de audio

Gladia cree que el procesamiento en tiempo real es la próxima frontera de las APIs de transcripción de audio

La startup francesa Gladia, que ofrece una interfaz de programación de aplicaciones de reconocimiento de voz, ha recaudado $16 millones en una ronda de financiamiento Serie A. Básicamente, el API de Gladia te permite convertir cualquier archivo de audio en texto con un alto nivel de precisión y un tiempo de respuesta rápido.

Si bien Amazon, Microsoft y Google ofrecen APIs de texto a voz como parte de sus suites de productos en la nube, no funcionan tan bien como los modelos más nuevos ofrecidos por startups especializadas.

Ha habido un tremendo progreso en este campo en los últimos años, especialmente después del lanzamiento de Whisper por OpenAI. Gladia compite con otras empresas bien financiadas en el espacio, como AssemblyAI, Deepgram y Speechmatics.

Gladia originalmente ofrecía una versión perfeccionada del modelo de texto a voz de Whisper con algunas mejoras muy necesarias. Por ejemplo, la startup soporta diarización de manera predeterminada: puede detectar cuándo hay múltiples oradores en una conversación y separar la grabación y el texto transcrito, dependiendo de quién esté hablando.

Gladia soporta 100 idiomas y una amplia variedad de acentos. Este reportero puede confirmar que funciona, ya que hemos estado usando Gladia para transcribir algunas entrevistas, y los acentos no fueron un problema.

La startup ofrece su modelo de texto a voz como un API alojado que los usuarios pueden aprovechar en sus propias aplicaciones y servicios. Más de 600 empresas utilizan Gladia, incluidos varios grabadores de reuniones y asistentes para tomar notas como Attention, Circleback, Method Financial, Recall, Sana y Veed.io.

Ese caso de uso en particular es interesante, ya que muchas empresas tienen que encadenar llamadas de API. Primero convierten el habla en texto, que luego alimentan en un gran modelo de lenguaje (LLM), como GPT-4o o Claude 3.5 Sonnet, para extraer conocimiento de grandes bloques de texto.

Con la nueva financiación, Gladia quiere simplificar esa cadena de procesamiento integrando inteligencia de audio y tareas basadas en LLM en una sola llamada de API. Por ejemplo, un cliente podría obtener un resumen de conversación generado a partir de un puñado de puntos clave sin depender de un API de terceros LLM.

El otro problema que Gladia busca resolver es la latencia. Es posible que hayas visto algunas demostraciones de conversaciones de audio en tiempo real con un agente de llamadas basado en IA (11x tiene una buena demo en su sitio web), y estos sistemas deben poder transcribir en tiempo real para que esas conversaciones suenen lo más parecidas posible a las de un humano.

«Gladia se dio cuenta de que en general la calidad en tiempo real no era muy buena. Y las personas tenían un caso de uso extraño. Estaban haciendo procesamiento en tiempo real, y luego estaban tomando el audio y ejecutándolo en lotes. Nos preguntamos: ‘¿Por qué están haciendo esto?’ Nos dijeron: ‘La calidad no es buena en el procesamiento en tiempo real, así que lo transcribimos en lotes después,'» dijo Jean-Louis Quéguiner, cofundador y CEO, a TechCrunch.

Gladia decidió abordar este problema, y actualmente puede transcribir una conversación en vivo con una latencia de menos de 300 milisegundos. La compañía afirma que el procesamiento en tiempo real ahora es más o menos tan bueno como el API de transcripción por lotes asincrónico por defecto, pero es difícil para nosotros juzgarlo sin una prueba adecuada. Como dice Quéguiner, la startup apunta a una «calidad de lotes con capacidades en tiempo real.

Aparte de los agentes de llamadas de IA, podrías imaginar un centro de llamadas utilizando esas capacidades en tiempo real para ayudar a los agentes de llamadas a encontrar información relevante en medio de una llamada. «Nuestro único API es compatible con todas las pilas tecnológicas y protocolos existentes, incluidos SIP, VoIP, FreeSwitch y Asterisk,» dijo Jonathan Soto, cofundador y CTO.

XAnge lidera la ronda de financiación Serie A. Illuminate Financial, XTX Ventures, Athletico Ventures, Gaingels, Mana Ventures, Motier Ventures, Roosh Ventures y Soma Capital también participaron.

Gladia cree que estamos al borde de un «momento ChatGPT» para las aplicaciones de audio. La tecnología GPT ha existido durante años, pero ChatGPT realmente popularizó los LLM con su interfaz de chat consumidor.

A medida que Apple o Google comienzan a incluir modelos de transcripción dentro de iOS o Android, los consumidores comenzarán a comprender el valor de la transcripción automatizada dentro de las aplicaciones que usan. Es probable que los desarrolladores integren características de audio en sus productos, y ahí es donde entrarán en juego los proveedores de API como Gladia.