


Gemini 3.5 Live Translate 为 Google AI Studio、Google Translate 和 Google Meet 带来了近乎实时、自然的语音翻译功能。
Gemini 3.5 Live Translate 是谷歌最新的音频模型,用于实现近乎实时的语音到语音翻译。它能自动识别超过70种语言,并生成流畅自然的翻译语音,同时保留说话者原有的语调、语速和音高。与传统的逐轮翻译系统不同——后者需要等待说话者说完才能回应——该模型可持续生成语音,在整个对话过程中仅比说话者延迟几秒钟。
该模型对流式传输的语音进行实时处理,在等待上下文以提高质量与即时翻译以保持同步之间取得平衡。这能提供流畅的音频,避免尴尬的停顿。
Gemini 3.5 Live Translate 无需手动配置即可处理多语言输入。它能从超过70种语言中自动识别源语言,并生成相应的翻译。
该模型专为应对嘈杂、不可预测的环境而设计,适用于多语言通话、会议、课程和广播等实际应用场景。
该模型将在谷歌产品中逐步推出:面向开发者的 Gemini Live API 和 Google AI Studio,面向企业的 Google Meet,以及面向消费者的 Android 和 iOS 版 Google 翻译应用。
“它能提供流畅的音频,避免尴尬的停顿,在整个对话过程中仅比说话者延迟几秒钟。”
这种持续流式处理方式是对传统翻译系统的根本性变革。Gemini 3.5 Live Translate 无需等待完整句子即可回应,而是近乎实时地生成语音,保留了对话的自然流畅感。该模型还能保持说话者原有的语调和语速,使交互更人性化,减少机械感。
你需要为多语言会议、客户支持、旅行或任何需要无缝跨语言交流的场景提供实时、自然的语音翻译。对于构建语音应用的开发者来说,Gemini Live API 以及与 Agora、LiveKit、Pipecat 等平台的合作伙伴集成,将尤其有助于快速部署。
其他您可能感兴趣的工具
停止在安卓上打字。开始使用首款真正智能的语音键盘进行对话。Typeless 能将你的自然语音转化为精炼的消息、邮件和文档——比你的拇指输入快 10 倍。
自然表达,Typeless for iOS 会将您的语音实时转化为清晰、精炼的消息、邮件和文档,读起来就像您精心输入的一样。突然间,您的 iPhone 就能轻松完成那些曾经看似不可能的事情,而且速度提升十倍。
是否曾希望仅通过观看喜爱的节目就能学会一门语言?有了 Wordy,这不再是梦。观看来自真实电影和电视剧的短视频片段,然后通过内置测验检验你的学习成果。你遇到的每个单词都会被自动记录,因此每看一个片段,你的词汇量都会随之增长。
仅需10秒音频,即可用AI克隆任何声音。
Loading comments…
制作者
calm_kit
访问网站
blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/
项目信息
产品关键词