Hush on aat.ee

¿Qué es Hush?

Hush es un modelo de supresión de ruido de código abierto desarrollado por weya AI que elimina el ruido de fondo, las voces superpuestas y las interferencias de audio en llamadas en tiempo real. Diseñado específicamente para pipelines de Voice AI, Hush limpia el audio telefónico caótico desde su origen, convirtiendo la entrada ruidosa en un habla limpia y lista para ASR. Procesa cada trama de audio de 10 ms en menos de 1 ms en CPUs estándar, manteniendo las conversaciones fluidas sin latencia. Con solo 8 MB, el modelo es lo suficientemente ligero para desplegarlo en tu propia nube o centro de datos, y se ubicó entre los 5 mejores modelos de mejora de habla en el ranking Audio-to-Audio de Hugging Face en su lanzamiento.

Para quién es

Desarrolladores de Voice AI — que construyen agentes o bots que necesitan reconocimiento de voz fiable a partir de llamadas reales ruidosas.
Equipos de centros de contacto — que buscan mejorar la comprensión de agentes y bots en entornos con tráfico, ruido de oficina o hablantes superpuestos.
Gerentes de cumplimiento y control de calidad — que requieren grabaciones de audio limpias para transcripción y análisis precisos.

Características principales

Procesamiento en CPU en tiempo real

Hush procesa cada trama de audio de 10 ms en menos de 1 ms en CPUs estándar, manteniendo las llamadas rápidas sin necesidad de GPUs. Esto lo hace práctico para ejecutarse a escala sin costosas actualizaciones de hardware.

Se enfoca en la voz correcta

El modelo aísla al interlocutor principal y aparta el ruido de fondo, el sonido de la televisión y otras voces superpuestas. Los sistemas ASR escuchan a la persona que importa, reduciendo errores por habla superpuesta.

Diseñado para lugares ruidosos

Hush maneja tráfico, bullicio de oficina, ventiladores y sonidos callejeros, manteniendo las llamadas comprensibles incluso en el peor ruido cotidiano. Fue entrenado con más de 10,000 horas de audio ruidoso del mundo real, incluyendo hablantes superpuestos y entornos difíciles.

Lo que destaca

Hush corrige la señal de la llamada en su origen, transformando el audio telefónico caótico en un habla limpia y lista para ASR.

La mayoría de los fallos de Voice AI provienen de audio deficiente, no de modelos malos. Hush aborda esto directamente limpiando la entrada antes de que llegue a tu pipeline de reconocimiento de voz. Su naturaleza de código abierto significa que puedes desplegarlo libremente, inspeccionar el código e integrarlo en stacks existentes sin dependencia de proveedores. La combinación de un tamaño de modelo pequeño (8 MB), rendimiento en tiempo real solo con CPU y una posición probada en el ranking lo convierte en una base práctica para cualquier sistema de Voice AI.

Vale la pena echarle un vistazo si…

Construyes u operas agentes de Voice AI que manejan llamadas telefónicas del mundo real, especialmente en entornos ruidosos como calles concurridas, cafeterías u oficinas abiertas. Hush también vale la pena explorarlo si deseas reducir errores de ASR, mejorar la comprensión de agentes o limpiar grabaciones de llamadas para cumplimiento normativo sin añadir costos de GPU. Su licencia de código abierto y su huella ligera lo convierten en una adición de bajo riesgo para cualquier pipeline de audio.

Hush

Hush

Acerca de Hush

¿Qué es Hush?

Para quién es

Características principales

Procesamiento en CPU en tiempo real

Se enfoca en la voz correcta

Diseñado para lugares ruidosos

Lo que destaca

Vale la pena echarle un vistazo si…

Productos relacionados

Comentarios

Supercut for Agents

Slideshot

MCP Bridge by Appfactor

ZeroGPU