


Voxtral Transcribe 2 es una familia de modelos de voz a texto de última generación de Mistral, que ofrece transcripción ultrarrápida y de alta precisión con capacidades en tiempo real y diarización de hablantes. Incluye dos modelos: Voxtral Mini Transcribe V2 para transcripción por lotes y Voxtral Realtime para aplicaciones en vivo. Juntos, admiten 13 idiomas, marcas de tiempo a nivel de palabra, sesgo de contexto y despliegue priorizando la privacidad, todo a una velocidad y costo líderes en la industria.
Diseñado específicamente para transcripción en vivo, Voxtral Realtime utiliza una arquitectura de transmisión novedosa que transcribe el audio a medida que llega. Ofrece latencia configurable de hasta menos de 200 ms, lo que permite agentes de voz con precisión casi fuera de línea. Con un retraso de 480 ms, se mantiene dentro del 1–2% de tasa de error de palabras, igualando la calidad por lotes para aplicaciones en tiempo real.
Este modelo por lotes logra una calidad de transcripción de última generación con aproximadamente un 4% de tasa de error de palabras en el punto de referencia FLEURS y $0.003 por minuto. Supera a GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal y Deepgram Nova en precisión, mientras procesa audio aproximadamente 3 veces más rápido que Scribe v2 de ElevenLabs a una quinta parte del costo.
Genera transcripciones con etiquetas de hablante y tiempos de inicio/fin precisos, ideal para reuniones, entrevistas y llamadas multiparticipante. El sesgo de contexto permite proporcionar hasta 100 palabras o frases para guiar al modelo hacia la ortografía correcta de nombres, términos técnicos o vocabulario específico del dominio.
Voxtral Realtime se distribuye bajo la licencia Apache 2.0, desplegable en dispositivos periféricos para aplicaciones que priorizan la privacidad. Ambos modelos admiten de forma nativa 13 idiomas, incluidos inglés, chino, hindi, español, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano y neerlandés.
Voxtral Transcribe 2 ofrece la tasa de error de palabras más baja al precio más bajo, con latencia en tiempo real de hasta menos de 200 ms.
Esta combinación de precisión, velocidad y eficiencia de costos no tiene igual en el mercado actual. Voxtral Mini Transcribe V2 logra una transcripción de última generación a $0.003 por minuto, mientras que Voxtral Realtime permite una nueva clase de aplicaciones centradas en la voz con una arquitectura de transmisión que no compromete la calidad. El lanzamiento de pesos abiertos bajo Apache 2.0 lo distingue aún más, permitiendo despliegues sensibles a la privacidad en dispositivos periféricos.
Necesitas una solución de voz a texto que equilibre latencia ultrabaja, alta precisión y rentabilidad, especialmente para agentes de voz en tiempo real, transcripción en vivo o aplicaciones que priorizan la privacidad. El modelo de pesos abiertos y el soporte multilingüe lo convierten en una opción sólida para desarrolladores que crean en múltiples plataformas e idiomas.
Otras herramientas que podrías considerar
Loading comments…
Creador
async_apple
Visitar sitio web
mistral.ai/news/voxtral-transcribe-2
Información del proyecto
Palabras clave del producto
Logro