


Voxtral Transcribe 2 est une nouvelle génération de modèles de reconnaissance vocale de Mistral, offrant une transcription ultra-rapide et très précise avec des capacités en temps réel et la diarisation des locuteurs. Elle comprend deux modèles : Voxtral Mini Transcribe V2 pour la transcription par lots et Voxtral Realtime pour les applications en direct. Ensemble, ils prennent en charge 13 langues, les horodatages au niveau du mot, le contexte adaptatif et un déploiement respectueux de la vie privée, le tout à une vitesse et un coût de pointe.
Conçu spécialement pour la transcription en direct, Voxtral Realtime utilise une architecture de streaming innovante qui transcrit l'audio au fur et à mesure de sa réception. Il offre une latence configurable pouvant descendre en dessous de 200 ms, permettant des agents vocaux avec une précision quasi hors ligne. Avec un délai de 480 ms, il reste dans une marge d'erreur de 1 à 2 % sur le taux d'erreur de mots, égalant la qualité par lots pour les applications en temps réel.
Ce modèle par lots atteint une qualité de transcription de pointe avec un taux d'erreur de mots d'environ 4 % sur le benchmark FLEURS et un coût de 0,003 $ par minute. Il surpasse GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal et Deepgram Nova en termes de précision, tout en traitant l'audio environ 3 fois plus rapidement que Scribe v2 d'ElevenLabs pour un cinquième du coût.
Générez des transcriptions avec des étiquettes de locuteur et des heures de début/fin précises, idéales pour les réunions, les entretiens et les appels multipartites. Le contexte adaptatif vous permet de fournir jusqu'à 100 mots ou phrases pour guider le modèle vers l'orthographe correcte des noms, des termes techniques ou du vocabulaire spécifique à un domaine.
Voxtral Realtime est distribué sous licence Apache 2.0, déployable en périphérie pour des applications respectueuses de la vie privée. Les deux modèles prennent en charge nativement 13 langues, dont l'anglais, le chinois, l'hindi, l'espagnol, l'arabe, le français, le portugais, le russe, l'allemand, le japonais, le coréen, l'italien et le néerlandais.
Voxtral Transcribe 2 offre le taux d'erreur de mots le plus bas au prix le plus bas, avec une latence en temps réel pouvant descendre en dessous de 200 ms.
Cette combinaison de précision, de vitesse et de rentabilité est inégalée sur le marché actuel. Voxtral Mini Transcribe V2 atteint une transcription de pointe à 0,003 $ par minute, tandis que Voxtral Realtime permet une nouvelle classe d'applications vocales avec une architecture de streaming qui ne compromet pas la qualité. La publication des poids ouverts sous licence Apache 2.0 le distingue également, permettant des déploiements sensibles à la vie privée sur des appareils périphériques.
Vous avez besoin d'une solution de reconnaissance vocale qui équilibre une latence ultra-faible, une haute précision et un bon rapport coût-efficacité, en particulier pour les agents vocaux en temps réel, la transcription en direct ou les applications respectueuses de la vie privée. Le modèle à poids ouverts et le support multilingue en font un choix solide pour les développeurs travaillant sur différentes plateformes et langues.
D'autres outils que vous pourriez envisager
Loading comments…
Créateur
async_apple
Visiter le site web
mistral.ai/news/voxtral-transcribe-2
Infos du projet
Mots-clés du produit
Récompense