


Gemini 3.5 Live Translate apporte une traduction vocale quasi instantanée et naturelle à Google AI Studio, Google Traduction et Google Meet.
Gemini 3.5 Live Translate est le dernier modèle audio de Google pour la traduction vocale quasi instantanée. Il détecte automatiquement plus de 70 langues et génère un discours traduit fluide et naturel qui préserve l'intonation, le rythme et la tonalité d'origine du locuteur. Contrairement aux anciens systèmes de traduction par tours qui attendent la fin de l'intervention du locuteur avant de répondre, ce modèle génère la parole en continu, ne restant que quelques secondes derrière le locuteur tout au long de la session.
Le modèle traite la parole au fur et à mesure qu'elle est diffusée, en équilibrant le compromis entre l'attente de contexte pour améliorer la qualité et la traduction immédiate pour rester synchronisé. Cela permet d'obtenir un audio fluide sans pauses gênantes.
Gemini 3.5 Live Translate gère les entrées multilingues sans nécessiter de configuration manuelle. Il identifie automatiquement la langue source parmi plus de 70 options et génère la traduction appropriée.
Le modèle est conçu pour gérer les environnements bruyants et imprévisibles, ce qui le rend adapté aux applications réelles telles que les appels multilingues, les réunions, les cours et les diffusions.
Le modèle est déployé sur les produits Google : pour les développeurs via l'API Gemini Live et Google AI Studio, pour les entreprises dans Google Meet, et pour les consommateurs dans l'application Google Traduction sur Android et iOS.
"Il délivre un audio fluide sans pauses gênantes et ne reste que quelques secondes derrière le locuteur tout au long de la session."
Cette approche de streaming continu constitue un changement fondamental par rapport aux systèmes de traduction traditionnels. Au lieu d'attendre une phrase complète avant de répondre, Gemini 3.5 Live Translate génère la parole en quasi-temps réel, préservant le flux naturel de la conversation. Le modèle maintient également le ton et le rythme d'origine du locuteur, rendant les interactions plus humaines et moins robotiques.
Vous avez besoin d'une traduction vocale en direct et naturelle pour des réunions multilingues, le support client, les voyages ou tout scénario où une communication inter-langues fluide est importante. Les développeurs créant des applications vocales trouveront l'API Gemini Live et les intégrations partenaires avec des plateformes comme Agora, LiveKit et Pipecat particulièrement utiles pour un déploiement rapide.
D'autres outils que vous pourriez envisager
Loading comments…
Créateur
calm_kit
Visiter le site web
blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/
Infos du projet
Mots-clés du produit