Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 是什么？

Gemini 3.5 Live Translate 是谷歌最新的音频模型，用于实现近乎实时的语音到语音翻译。它能自动识别超过70种语言，并生成流畅自然的翻译语音，同时保留说话者原有的语调、语速和音高。与传统的逐轮翻译系统不同——后者需要等待说话者说完才能回应——该模型可持续生成语音，在整个对话过程中仅比说话者延迟几秒钟。

适用人群

开发者：正在构建多语言语音应用的开发者，可通过 Gemini Live API 和 Google AI Studio 集成该模型。
企业团队：需要会议实时口译的企业团队，本月起可在 Google Meet 中申请私有预览版。
日常旅行者与多语言交流者：可直接在 Android 或 iOS 版 Google 翻译应用中使用该功能，搭配任意耳机即可。

主要功能

持续流式翻译

该模型对流式传输的语音进行实时处理，在等待上下文以提高质量与即时翻译以保持同步之间取得平衡。这能提供流畅的音频，避免尴尬的停顿。

自动语言检测

Gemini 3.5 Live Translate 无需手动配置即可处理多语言输入。它能从超过70种语言中自动识别源语言，并生成相应的翻译。

抗噪能力

该模型专为应对嘈杂、不可预测的环境而设计，适用于多语言通话、会议、课程和广播等实际应用场景。

广泛的平台支持

该模型将在谷歌产品中逐步推出：面向开发者的 Gemini Live API 和 Google AI Studio，面向企业的 Google Meet，以及面向消费者的 Android 和 iOS 版 Google 翻译应用。

突出亮点

“它能提供流畅的音频，避免尴尬的停顿，在整个对话过程中仅比说话者延迟几秒钟。”

这种持续流式处理方式是对传统翻译系统的根本性变革。Gemini 3.5 Live Translate 无需等待完整句子即可回应，而是近乎实时地生成语音，保留了对话的自然流畅感。该模型还能保持说话者原有的语调和语速，使交互更人性化，减少机械感。

值得一试，如果……

你需要为多语言会议、客户支持、旅行或任何需要无缝跨语言交流的场景提供实时、自然的语音翻译。对于构建语音应用的开发者来说，Gemini Live API 以及与 Agora、LiveKit、Pipecat 等平台的合作伙伴集成，将尤其有助于快速部署。

Gemini 3.5 Live Translate

Gemini 3.5 Live Translate

关于 Gemini 3.5 Live Translate