


Gemini 3.5 Live Translate ofrece traducción de voz natural casi en tiempo real para Google AI Studio, Google Translate y Google Meet.
Gemini 3.5 Live Translate es el último modelo de audio de Google para traducción de voz a voz casi en tiempo real. Detecta automáticamente más de 70 idiomas y genera un discurso traducido fluido y de sonido natural que conserva la entonación, el ritmo y el tono originales del hablante. A diferencia de los sistemas antiguos de turno por turno que esperan a que el hablante termine antes de responder, este modelo genera voz de forma continua, manteniéndose solo unos segundos por detrás del hablante durante toda la sesión.
El modelo procesa el habla a medida que se transmite, equilibrando el compromiso entre esperar contexto para mejorar la calidad y traducir de inmediato para mantenerse sincronizado. Esto ofrece audio fluido sin pausas incómodas.
Gemini 3.5 Live Translate maneja entradas multilingües sin necesidad de configuración manual. Identifica automáticamente el idioma de origen entre más de 70 opciones y genera la traducción adecuada.
El modelo está diseñado para manejar entornos ruidosos e impredecibles, lo que lo hace adecuado para aplicaciones del mundo real como llamadas multilingües, reuniones, clases y transmisiones.
El modelo se implementa en los productos de Google: para desarrolladores a través de la API Gemini Live y Google AI Studio, para empresas en Google Meet y para consumidores en la aplicación Google Translate tanto en Android como en iOS.
"Ofrece audio fluido sin pausas incómodas y se mantiene solo unos segundos por detrás del hablante durante toda la sesión."
Este enfoque de transmisión continua supone un cambio fundamental respecto a los sistemas de traducción tradicionales. En lugar de esperar a una frase completa antes de responder, Gemini 3.5 Live Translate genera voz casi en tiempo real, preservando el flujo natural de la conversación. El modelo también mantiene el tono y el ritmo originales del hablante, haciendo que las interacciones resulten más humanas y menos robóticas.
Necesitas traducción de voz en vivo y de sonido natural para reuniones multilingües, atención al cliente, viajes o cualquier escenario donde la comunicación fluida entre idiomas sea importante. Los desarrolladores que crean aplicaciones de voz encontrarán especialmente útil la API Gemini Live y las integraciones con socios como Agora, LiveKit y Pipecat para una implementación rápida.
Otras herramientas que podrías considerar
Loading comments…
Creador
calm_kit
Visitar sitio web
blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/
Información del proyecto
Palabras clave del producto