
Hush 可消除实时通话中的竞争语音、背景噪音和音频干扰,让您的语音 AI 代理始终听到关键内容。
Hush 是由 weya AI 开发的开源降噪模型,能够从实时通话中去除背景噪音、干扰人声和音频干扰。专为语音 AI 流水线设计,Hush 从源头净化嘈杂的电话音频,将嘈杂输入转化为清晰、适合 ASR 的语音。它在标准 CPU 上处理每 10 毫秒音频帧的时间不到 1 毫秒,确保通话流畅无延迟。模型仅 8 MB,轻量级设计使其可部署在自有云或数据中心,上线时在 Hugging Face 的音频到音频排行榜上位列前五。
Hush 在标准 CPU 上处理每 10 毫秒音频帧的时间不到 1 毫秒,无需 GPU 即可保持通话快速。这使得它无需昂贵硬件升级即可大规模运行。
该模型隔离主要通话者,将背景谈话、电视噪音和其他干扰人声推到一边。ASR 系统听到的是关键人物,从而减少重叠语音带来的错误。
Hush 能处理交通噪音、办公室嗡嗡声、风扇声和街道声音,即使在最糟糕的日常噪音中也能保持通话清晰。它基于超过 10,000 小时的真实世界嘈杂音频(包括重叠说话者和恶劣环境)进行训练。
Hush 从源头修复通话信号,将混乱的电话音频转化为清晰、适合 ASR 的语音。
大多数语音 AI 失败源于糟糕的音频,而非糟糕的模型。Hush 直接在输入到达语音识别流水线之前进行净化,从而解决这一问题。其开源特性意味着你可以自由部署、检查代码,并将其集成到现有技术栈中,无需受供应商锁定。小巧的模型体积(8 MB)、仅 CPU 的实时性能以及经过验证的排行榜排名,使其成为任何语音 AI 系统的实用基础。
你构建或运营处理真实世界电话通话的语音 AI 智能体——尤其是在繁忙街道、咖啡馆或开放式办公室等嘈杂环境中。如果你希望在不增加 GPU 成本的情况下减少 ASR 错误、提升智能体理解能力或净化通话录音以符合合规要求,Hush 也值得探索。其开源许可和轻量级特性使其成为任何音频流水线的低风险补充。
其他您可能感兴趣的工具
Loading comments…
制作者
neon_dev
项目信息
产品关键词