Google lanzó Gemini Live durante su evento Made By Google en Mountain View, California, el martes. Esta función te permite tener una conversación hablada seminatural, no escrita, con un chatbot de inteligencia artificial impulsado por el último gran modelo de lenguaje de Google. TechCrunch estuvo allí para probarlo de primera mano.
Gemini Live es la respuesta de Google al Modo de Voz Avanzado de OpenAI, una característica casi idéntica de ChatGPT que actualmente se encuentra en una prueba alfa limitada. Si bien OpenAI adelantó a Google al demostrar primero la función, Google es el primero en implementarla finalmente.
En mi experiencia, estas funciones verbales de baja latencia se sienten mucho más naturales que enviar mensajes de texto con ChatGPT, o incluso hablar con Siri o Alexa. Descubrí que Gemini Live respondió a preguntas en menos de dos segundos y fue capaz de cambiar rápidamente de tema al ser interrumpido. Aunque no es perfecto, es la mejor manera de usar tu teléfono sin manos que he visto hasta ahora.
Antes de hablar con Gemini Live, la función te permite elegir entre 10 voces, en comparación con solo tres voces de OpenAI. Google trabajó con actores de voz para crear cada una. Aprecié la variedad y encontré que cada una sonaba muy humana.
En un ejemplo, un gerente de productos de Google pidió verbalmente a Gemini Live encontrar bodegas familiares amigables cerca de Mountain View con áreas al aire libre y parques infantiles cercanos, para que los niños pudieran acompañar. Esa es una tarea mucho más complicada de lo que le pediría a Siri, o incluso a Google Search, sinceramente, pero Gemini recomendó con éxito un lugar que cumplía con los criterios: Cooper-Garrod Vineyards en Saratoga.
Sin embargo, Gemini Live deja algo que desear. Parecía alucinar sobre un parque infantil cercano llamado Henry Elementary School Playground que supuestamente está «a 10 minutos» de esa bodega. Hay otros parques infantiles cercanos en Saratoga, pero la escuela primaria Henry más cercana está a más de dos horas en coche de allí. Hay una escuela primaria Henry Ford en Redwood City, pero está a 30 minutos de distancia.
Google le gustaba mostrar cómo los usuarios pueden interrumpir a Gemini Live en medio de una frase, y la IA cambiará rápidamente de tema. La empresa dice que esto permite a los usuarios controlar la conversación. En la práctica, esta función no funciona perfectamente. A veces, los gerentes de proyectos de Google y Gemini Live hablaban al mismo tiempo, y la IA no parecía captar lo que se decía.
Es importante destacar que Google no permite que Gemini Live cante o imite voces fuera de las 10 que proporciona, según el gerente de producto Leland Rechis. Es probable que la empresa esté haciendo esto para evitar problemas con la ley de derechos de autor. Además, Rechis dijo que Google no se está enfocando en lograr que Gemini Live comprenda la entonación emocional en la voz del usuario, algo que OpenAI promocionó durante su demostración.
En general, la función parece ser una excelente manera de sumergirse más profundamente en un tema de manera más natural que lo harías con una simple búsqueda en Google. Google señala que Gemini Live es un paso en el camino hacia Project Astra, el modelo AI totalmente multimodal que la empresa presentó durante Google I/O. Por ahora, Gemini Live solo es capaz de mantener conversaciones por voz, sin embargo, en el futuro, Google quiere agregar comprensión de video en tiempo real.