Hush on aat.ee

Hushとは

Hushは、weya AIが開発したオープンソースのノイズ抑制モデルで、リアルタイム通話から背景ノイズ、競合する声、オーディオ干渉を取り除きます。Voice AIパイプライン向けに特別に設計されており、乱雑な電話音声をソースでクリーンアップし、ノイズの多い入力をクリーンでASR対応の音声に変換します。標準的なCPU上で、10ミリ秒のオーディオフレームを1ミリ秒未満で処理し、遅延なく会話を継続します。わずか8MBの軽量モデルで、自社のクラウドやデータセンターに簡単にデプロイでき、Hugging FaceのAudio-to-Audioリーダーボードでローンチ時にトップ5の音声強調モデルにランクインしました。

対象ユーザー

Voice AI開発者 — ノイズの多い実際の通話から信頼性の高い音声認識を必要とするエージェントやボットを構築する方。
コンタクトセンター担当者 — 交通騒音、オフィスの雑音、話者の重なりがある環境で、エージェントとボットの理解力を向上させたい方。
コンプライアンスおよび品質保証マネージャー — 正確な文字起こしと分析のためにクリーンな音声録音を必要とする方。

主な機能

リアルタイムCPU処理

Hushは、標準的なCPU上で10ミリ秒のオーディオフレームを1ミリ秒未満で処理するため、GPUを必要とせず通話を高速に保ちます。これにより、高価なハードウェアアップグレードなしで大規模に実用的に実行できます。

適切な声に焦点を当てる

このモデルは、主要な発信者を分離し、背景の会話、テレビのノイズ、その他の競合する声を排除します。ASRシステムは重要な人物の声を聞き取り、重なり合う音声によるエラーを削減します。

騒がしい場所向けに設計

Hushは、交通騒音、オフィスの雑音、ファン、街の音を処理し、最悪の日常的なノイズの中でも通話を理解可能に保ちます。話者の重なりや過酷な環境を含む、10,000時間以上の実際のノイズ音声でトレーニングされています。

際立っている点

Hushは、通話信号をソースで修正し、乱雑な電話音声をクリーンでASR対応の音声に変換します。

Voice AIの失敗のほとんどは、モデル自体の問題ではなく、音声の質の悪さに起因します。Hushは、音声認識パイプラインに到達する前に入力をクリーンアップすることで、この問題に直接対処します。オープンソースであるため、自由にデプロイし、コードを検査し、ベンダーロックインなしで既存のスタックに統合できます。わずか8MBの小型モデル、CPUのみのリアルタイムパフォーマンス、実績のあるリーダーボードランキングの組み合わせにより、あらゆるVoice AIシステムの実用的な基盤となります。

検討すべきケース

実際の電話通話を処理するVoice AIエージェントを構築または運用している場合、特に繁華街、カフェ、オープンオフィスなどの騒がしい環境で使用する場合に適しています。また、ASRエラーを削減したり、エージェントの理解力を向上させたり、GPUコストを追加せずにコンプライアンス用の通話録音をクリーンアップしたい場合にも検討する価値があります。オープンソースライセンスと軽量なフットプリントにより、あらゆるオーディオパイプラインに低リスクで追加できます。

Hush

Hush

Hushについて

Hushとは

対象ユーザー

主な機能

リアルタイムCPU処理

適切な声に焦点を当てる

騒がしい場所向けに設計

際立っている点

検討すべきケース

関連製品

Supercut for Agents

Slideshot

MCP Bridge by Appfactor

コメント

ZeroGPU