Google está tratando de lograr un impacto con Gemini, su suite insignia de modelos AI generativos, aplicaciones y servicios.
Entonces, ¿qué es Gemini? ¿Cómo puedes usarlo? ¿Y cómo se compara con la competencia?
Para facilitar el seguimiento de los últimos desarrollos de Gemini, hemos creado esta útil guía, que mantendremos actualizada a medida que se publiquen nuevos modelos de Gemini, características y noticias sobre los planes de Google para Gemini.
¿Qué es Gemini?
Gemini es la familia de modelos GenAI de próxima generación de Google, desarrollada por los laboratorios de investigación de IA de Google, DeepMind y Google Research. Viene en tres variantes:
Gemini Ultra, el modelo Gemini más potente.
Gemini Pro, un modelo Gemini «lite».
Gemini Nano, un modelo «destilado» más pequeño que se ejecuta en dispositivos móviles como el Pixel 8 Pro.
Todos los modelos de Gemini fueron entrenados para ser «nativamente multimodales», es decir, capaces de trabajar y usar más que solo palabras. Fueron preentrenados y ajustados en una variedad de audio, imágenes y videos, una gran cantidad de bases de código y texto en diferentes idiomas.
Esto distingue a Gemini de modelos como LaMDA de Google, que fue entrenado exclusivamente con datos de texto. LaMDA no puede entender ni generar nada más que texto (por ejemplo, ensayos, borradores de correos electrónicos), pero eso no ocurre con los modelos de Gemini.
¿Cuál es la diferencia entre las aplicaciones Gemini y los modelos Gemini?
Google, demostrando una vez más que le falta habilidad para la marca, no dejó claro desde el principio que Gemini es separado y distinto de las aplicaciones Gemini en la web y móviles (antes Bard). Las aplicaciones Gemini son simplemente una interfaz a través de la cual se puede acceder a ciertos modelos Gemini, como un cliente para GenAI de Google.
Por cierto, las aplicaciones y modelos de Gemini también son totalmente independientes de Imagen 2, el modelo de texto a imagen de Google que está disponible en algunas de las herramientas y entornos de desarrollo de la empresa.
¿Qué puede hacer Gemini?
Debido a que los modelos de Gemini son multimodales, en teoría pueden realizar una variedad de tareas multimodales, desde transcribir el habla hasta subtitular imágenes y videos o generar arte. Algunas de estas capacidades aún no han alcanzado la etapa de producto (más sobre eso más adelante), y Google promete todas ellas, y más, en algún momento en un futuro cercano.
Por supuesto, es un poco difícil creerle a la empresa.
Google realmente no cumplió las expectativas con el lanzamiento original de Bard. Y más recientemente, levantó sospechas con un video que afirmaba mostrar las capacidades de Gemini y resultó haber sido fuertemente editado y más o menos aspiracional.
Sin embargo, suponiendo que Google está siendo más o menos veraz con sus afirmaciones, aquí está lo que los diferentes niveles de Gemini podrán hacer una vez que alcancen su máximo potencial:
Gemini Ultra
Google dice que Gemini Ultra gracias a su multimodalidad puede ser usado para ayudar con cosas como las tareas de física, resolver problemas paso a paso en una hoja de trabajo y señalar posibles errores en respuestas ya completadas.
Gemini Ultra también puede aplicarse a tareas como identificar artículos científicos relevantes para un problema específico, extraer información de esos artículos y «actualizar» un gráfico mediante la generación de las fórmulas necesarias para volver a crear el gráfico con datos más recientes.
Gemini Ultra técnicamente soporta generación de imágenes, como se mencionó anteriormente. Pero esa capacidad aún no se ha incorporado a la versión del modelo comercializado, quizás porque el mecanismo es más complejo que como las aplicaciones como ChatGPT generan imágenes. En lugar de alimentar pistas a un generador de imágenes (como DALL-E 3, en el caso de ChatGPT), Gemini produce imágenes «nativamente», sin un paso intermedio.
Gemini Ultra está disponible como una API a través de Vertex AI, la plataforma de desarrollo de IA totalmente gestionada de Google, y AI Studio, la herramienta basada en la web de Google para desarrolladores de aplicaciones y plataformas. También alimenta las aplicaciones de Gemini, pero no es gratuito. El acceso a Gemini Ultra a través de lo que Google llama Gemini Advanced, requiere suscribirse al Plan Premium de IA de Google One, con un precio de $20 al mes.
El Plan Premium de IA también conecta a Gemini con su cuenta de Google Workspace más amplia, como correos electrónicos en Gmail, documentos en Docs, presentaciones en Sheets y grabaciones de Google Meet. Eso es útil, por ejemplo, para resumir correos electrónicos o tener a Gemini capturar notas durante una llamada de video.
Gemini Pro
Google dice que Gemini Pro es una mejora sobre LaMDA en sus capacidades de razonamiento, planificación y comprensión.
Un estudio independiente de investigadores de Carnegie Mellon y BerriAI encontró que la versión inicial de Gemini Pro era efectivamente mejor que GPT-3.5 de OpenAI en el manejo de cadenas de razonamiento más largas y complejas. Pero el estudio también encontró que, al igual que todos los grandes modelos de lenguaje, esta versión de Gemini Pro tuvo dificultades con problemas matemáticos que involucran varios dígitos, y los usuarios encontraron ejemplos de razonamiento incorrecto y errores obvios.
Sin embargo, Google prometió soluciones — y la primera llegó en forma de Gemini 1.5 Pro.
Diseñado para ser un reemplazo fácil, Gemini 1.5 Pro es mejorado en varias áreas en comparación con su predecesor, quizás lo más significativo en la cantidad de datos que puede procesar. Gemini 1.5 Pro puede procesar ~700,000 palabras o ~30,000 líneas de código, 35 veces la cantidad que Gemini 1.0 Pro puede manejar. Y, siendo multimodal, no se limita al texto. Gemini 1.5 Pro puede analizar hasta 11 horas de audio o una hora de video en una variedad de idiomas, aunque de manera lenta (por ejemplo, buscar una escena en un video de una hora toma de 30 segundos a un minuto de procesamiento).
Gemini 1.5 Pro entró en vista previa pública en Vertex AI en abril.
Un endpoint adicional, Gemini Pro Vision, puede procesar texto e imágenes, incluyendo fotos y videos, y generar texto similar al modelo GPT-4 con Visión de OpenAI.
El uso de Gemini Pro en Vertex AI. Créditos de la imagen: Gemini
Dentro de Vertex AI, los desarrolladores pueden personalizar Gemini Pro para contextos y casos de uso específicos mediante un proceso de ajuste o «fundamento». Gemini Pro también puede estar conectado a APIs externas de terceros para realizar acciones particulares.
En AI Studio, hay flujos de trabajo para crear indicaciones de chat estructurado utilizando Gemini Pro. Los desarrolladores tienen acceso tanto a Gemini Pro como a los endpoints Gemini Pro Vision, y pueden ajustar la temperatura del modelo para controlar el rango creativo de la salida y proporcionar ejemplos para dar instrucciones de tono y estilo, y también ajustar la configuración de seguridad.
Gemini Nano
Gemini Nano es una versión mucho más pequeña de los modelos Gemini Pro y Ultra, y es lo suficientemente eficiente como para ejecutarse directamente en (algunos) teléfonos en lugar de enviar la tarea a un servidor en algún lugar. Hasta ahora, alimenta algunas características en el Pixel 8 Pro, Pixel 8 y Samsung Galaxy S24, incluyendo Resumir en Grabadora y Respuesta Inteligente en Gboard.
La aplicación Grabadora, que permite a los usuarios presionar un botón para grabar y transcribir audio, incluye un resumen potenciado por Gemini de tus conversaciones grabadas, entrevistas, presentaciones y otros fragmentos. Los usuarios reciben estos resúmenes incluso si no tienen una señal o conexión Wi-Fi disponible, y en un gesto hacia la privacidad, ningún dato sale de su teléfono en el proceso.
Gemini Nano también está en Gboard, la aplicación de teclado de Google. Allí, alimenta una función llamada Respuesta Inteligente, que ayuda a sugerir lo que querrás decir a continuación al mantener una conversación en una aplicación de mensajería. Inicialmente, la función solo funciona con WhatsApp pero llegará a más aplicaciones con el tiempo, dice Google.
Y en la aplicación de Mensajes de Google en dispositivos compatibles, Nano habilita Composición Mágica, que puede redactar mensajes en estilos como «emocionante», «formal» y «lírico».
¿Es Gemini mejor que GPT-4 de OpenAI?
Google ha presumido varias veces de la superioridad de Gemini en los benchmarks, afirmando que Gemini Ultra supera los resultados más avanzados en «30 de los 32 ampliamente utilizados benchmarks académicos usados en la investigación y desarrollo de grandes modelos de lenguaje». La compañía dice que Gemini 1.5 Pro, por su parte, es más capaz en tareas como resumir contenido, idear y escribir que Gemini Ultra en algunos escenarios; presumiblemente esto cambiará con el lanzamiento del próximo modelo Ultra.
Pero dejando de lado la cuestión de si los benchmarks realmente indican un mejor modelo, las puntuaciones a las que Google se refiere parecen ser solo marginalmente mejores que los modelos correspondientes de OpenAI. Y, como se mencionó anteriormente, algunas impresiones iniciales no han sido del todo positivas, con usuarios y académicos señalando que la versión anterior de Gemini Pro tiende a equivocar datos básicos, tiene dificultades con traducciones y da malas sugerencias de código.
¿Cuánto cuesta Gemini?
Gemini 1.5 Pro es gratuito de usar en las aplicaciones de Gemini y, por ahora, en AI Studio y Vertex AI.
Una vez que Gemini 1.5 Pro salga de la vista previa en Vertex, sin embargo, el modelo costará $0.0025 por carácter mientras que la salida costará $0.00005 por carácter. Los clientes de Vertex pagan por cada 1,000 caracteres (unas 140 a 250 palabras) y, en el caso de modelos como Gemini Pro Vision, por imagen ($0.0025).
Supongamos que un artículo de 500 palabras contiene 2,000 caracteres. Resumir ese artículo con Gemini 1.5 Pro costaría $5. Mientras que generar un artículo de una longitud similar costaría $0.1.
Aún no se ha anunciado el precio de Ultra.
¿Dónde puedes probar Gemini?
Gemini Pro
El lugar más sencillo para experimentar con Gemini Pro es en las aplicaciones de Gemini. Pro y Ultra están respondiendo consultas en una variedad de idiomas.
Gemini Pro y Ultra también son accesibles en vista previa en Vertex AI a través de una API. La API es gratuita de usar «dentro de ciertos límites» por ahora y es compatible con ciertas regiones, incluyendo Europa, así como funciones como funcionalidad de chat y filtros.
Además, Gemini Pro y Ultra se pueden encontrar en AI Studio. Utilizando el servicio, los desarrolladores pueden iterar indicaciones y chatbots basados en Gemini y luego obtener claves de API para usarlos en sus aplicaciones, o exportar el código a un IDE más completo.
Code Assist (anteriormente Duet AI for Developers), la suite de herramientas de asistencia impulsadas por AI de Google para completar y generar código, está utilizando modelos de Gemini. Los desarrolladores pueden realizar cambios «a gran escala» en bases de código, por ejemplo, actualizando dependencias entre archivos y revisando grandes fragmentos de código.
Google ha llevado modelos de Gemini a sus herramientas de desarrollo para Chrome y la plataforma de desarrollo móvil Firebase, así como sus herramientas de creación y gestión de bases de datos. Y ha lanzado nuevos productos de seguridad respaldados por Gemini, como Gemini en Threat Intelligence, un componente de la plataforma de ciberseguridad de Mandiant de Google que puede analizar grandes partes de codigos potencialmente maliciosos y permitir a los usuarios hacer búsquedas en lenguaje natural de amenazas en curso o indicadores de compromiso.