


Chatterbox Turbo 是一个拥有 3.5 亿参数的开源文本转语音(TTS)模型,能够实现快速、富有表现力的语音合成,并内置安全功能。它在单个 GPU 上的运行速度比实时快 6 倍以上,延迟低至 75 毫秒,适用于实时应用。该模型采用 MIT 许可证发布,是首个在每次生成的音频输出中包含 PerTh 水印 的开源 TTS 模型,确保可溯源性和责任性。
Chatterbox Turbo 引入了基于文本的标签,让您可以控制自然的语音反应——包括 [sigh]、[gasp]、[cough]、[laugh]、[whisper] 和 [breath]。这些反应会以克隆语音和相同的情感基调呈现,无需后期处理或手动音频编辑。
仅需 5 秒参考音频 即可克隆任何语音——无需训练运行,无需微调。该模型在直接对比测试中优于专有闭源模型,对 ElevenLabs Turbo v2.5 的胜率为 65.3%,对 VibeVoice 7B 的胜率为 59.1%。
Chatterbox Turbo 生成的每个音频文件都经过 Resemble AI 的 PerTh 水印器认证。这确保您可以随时验证内容是否由该模型创建,在保持高音频质量的同时,实现生产部署中的可问责性。
开源 TTS 模型中的独特功能:通过单个参数调整情感强度,从单调到极具表现力。这提供了对语音传达的精细控制,无需复杂的提示工程。
唯一一个无需您在速度、表现力和安全性之间做出取舍的开源 TTS 模型。
Chatterbox Turbo 是首个将 内置 PerTh 水印 作为默认功能(而非事后添加)的开源 TTS 模型。这意味着开发者可以在生产环境中部署快速、富有表现力的语音 AI,同时保持可溯源性和责任性。结合副语言提示和仅需 5 秒音频的零样本克隆,它在单个 MIT 许可的软件包中提供了性能、控制和可信度的罕见组合。
您需要一个在单个 GPU 上运行、支持实时语音合成并包含内置安全功能的快速开源 TTS 模型。尤其适合构建语音助手、交互式媒体或任何 可问责的 AI 生成语音 至关重要的应用——同时希望避免专有锁定或复杂的后期处理流程。
其他您可能感兴趣的工具
Loading comments…
制作者
async_apple
访问网站
resemble.ai/chatterbox-turbo/
项目信息
产品关键词
成就