
Hush는 실시간 통화에서 경쟁 음성, 배경 소음, 오디오 간섭을 제거하여 음성 AI 에이전트가 항상 중요한 내용만 들을 수 있도록 합니다.
Hush는 weya AI가 개발한 오픈소스 잡음 제거 모델로, 실시간 통화에서 배경 소음, 경쟁 음성, 오디오 간섭을 제거합니다. Voice AI 파이프라인을 위해 특별히 설계된 Hush는 혼잡한 전화 오디오를 원천에서 정리하여 노이즈가 있는 입력을 깨끗하고 ASR(자동 음성 인식)에 적합한 음성으로 변환합니다. 표준 CPU에서 10ms 오디오 프레임을 1ms 미만으로 처리하여 지연 없이 대화를 원활하게 유지합니다. 모델 크기는 8MB에 불과해 자체 클라우드나 데이터 센터에 배포하기에 충분히 가벼우며, 출시 당시 Hugging Face의 Audio-to-Audio 리더보드에서 상위 5위 안에 드는 음성 향상 모델로 선정되었습니다.
Hush는 표준 CPU에서 10ms 오디오 프레임을 1ms 미만으로 처리하므로 GPU 없이도 통화 속도를 유지합니다. 따라서 고가의 하드웨어 업그레이드 없이도 대규모로 실용적으로 실행할 수 있습니다.
이 모델은 주요 발신자를 분리하고 배경 대화, TV 소음 및 기타 경쟁 음성을 제거합니다. ASR 시스템은 중요한 사람의 음성을 인식하여 중첩 발언으로 인한 오류를 줄입니다.
Hush는 교통 소음, 사무실 소음, 팬 소음, 거리 소음을 처리하여 최악의 일상적인 잡음 속에서도 통화를 이해할 수 있도록 합니다. 10,000시간 이상의 실제 잡음 오디오(중첩 발언 및 까다로운 환경 포함)로 훈련되었습니다.
Hush는 통화 신호를 원천에서 수정하여 혼잡한 전화 오디오를 깨끗하고 ASR에 적합한 음성으로 변환합니다.
대부분의 Voice AI 실패는 모델 자체의 문제가 아니라 나쁜 오디오에서 비롯됩니다. Hush는 음성 인식 파이프라인에 도달하기 전에 입력을 정리하여 이 문제를 직접 해결합니다. 오픈소스 특성 덕분에 자유롭게 배포하고, 코드를 검사하며, 벤더 종속 없이 기존 스택에 통합할 수 있습니다. 작은 모델 크기(8MB), CPU 전용 실시간 성능, 입증된 리더보드 순위의 조합은 모든 Voice AI 시스템에 실용적인 기반을 제공합니다.
특히 번화가, 카페, 개방형 사무실과 같은 잡음이 많은 환경에서 실제 전화 통화를 처리하는 Voice AI 에이전트를 구축하거나 운영하는 경우. 또한 ASR 오류를 줄이거나, 에이전트 이해도를 개선하거나, GPU 비용 없이 규정 준수를 위해 통화 녹음을 정리하려는 경우 Hush를 살펴볼 가치가 있습니다. 오픈소스 라이선스와 가벼운 설치 공간 덕분에 모든 오디오 파이프라인에 위험 부담이 적은 추가 기능입니다.
고려해볼 만한 다른 도구
Loading comments…
제작자
neon_dev
프로젝트 정보
제품 키워드