
Hush elimina las voces competidoras, el ruido de fondo y las interferencias de audio en las llamadas en tiempo real para que tus agentes de voz con IA siempre escuchen lo que importa.
Hush es un modelo de supresión de ruido de código abierto desarrollado por weya AI que elimina el ruido de fondo, las voces superpuestas y las interferencias de audio en llamadas en tiempo real. Diseñado específicamente para pipelines de Voice AI, Hush limpia el audio telefónico caótico desde su origen, convirtiendo la entrada ruidosa en un habla limpia y lista para ASR. Procesa cada trama de audio de 10 ms en menos de 1 ms en CPUs estándar, manteniendo las conversaciones fluidas sin latencia. Con solo 8 MB, el modelo es lo suficientemente ligero para desplegarlo en tu propia nube o centro de datos, y se ubicó entre los 5 mejores modelos de mejora de habla en el ranking Audio-to-Audio de Hugging Face en su lanzamiento.
Hush procesa cada trama de audio de 10 ms en menos de 1 ms en CPUs estándar, manteniendo las llamadas rápidas sin necesidad de GPUs. Esto lo hace práctico para ejecutarse a escala sin costosas actualizaciones de hardware.
El modelo aísla al interlocutor principal y aparta el ruido de fondo, el sonido de la televisión y otras voces superpuestas. Los sistemas ASR escuchan a la persona que importa, reduciendo errores por habla superpuesta.
Hush maneja tráfico, bullicio de oficina, ventiladores y sonidos callejeros, manteniendo las llamadas comprensibles incluso en el peor ruido cotidiano. Fue entrenado con más de 10,000 horas de audio ruidoso del mundo real, incluyendo hablantes superpuestos y entornos difíciles.
Hush corrige la señal de la llamada en su origen, transformando el audio telefónico caótico en un habla limpia y lista para ASR.
La mayoría de los fallos de Voice AI provienen de audio deficiente, no de modelos malos. Hush aborda esto directamente limpiando la entrada antes de que llegue a tu pipeline de reconocimiento de voz. Su naturaleza de código abierto significa que puedes desplegarlo libremente, inspeccionar el código e integrarlo en stacks existentes sin dependencia de proveedores. La combinación de un tamaño de modelo pequeño (8 MB), rendimiento en tiempo real solo con CPU y una posición probada en el ranking lo convierte en una base práctica para cualquier sistema de Voice AI.
Construyes u operas agentes de Voice AI que manejan llamadas telefónicas del mundo real, especialmente en entornos ruidosos como calles concurridas, cafeterías u oficinas abiertas. Hush también vale la pena explorarlo si deseas reducir errores de ASR, mejorar la comprensión de agentes o limpiar grabaciones de llamadas para cumplimiento normativo sin añadir costos de GPU. Su licencia de código abierto y su huella ligera lo convierten en una adición de bajo riesgo para cualquier pipeline de audio.
Otras herramientas que podrías considerar
Loading comments…
Creador
neon_dev
Visitar sitio web
weya.ai/hush
Información del proyecto
Palabras clave del producto