Voxtral Transcribe 2 by Mistral

Qu'est-ce que Voxtral Transcribe 2 ?

Voxtral Transcribe 2 est une nouvelle génération de modèles de reconnaissance vocale de Mistral, offrant une transcription ultra-rapide et très précise avec des capacités en temps réel et la diarisation des locuteurs. Elle comprend deux modèles : Voxtral Mini Transcribe V2 pour la transcription par lots et Voxtral Realtime pour les applications en direct. Ensemble, ils prennent en charge 13 langues, les horodatages au niveau du mot, le contexte adaptatif et un déploiement respectueux de la vie privée, le tout à une vitesse et un coût de pointe.

À qui s'adresse-t-il

Développeurs d'applications vocales qui ont besoin d'une latence inférieure à 200 ms pour les agents vocaux en temps réel et les expériences interactives.
Processeurs de réunions et d'appels qui nécessitent une diarisation précise des locuteurs et des horodatages au niveau du mot pour la transcription multipartite.
Équipes soucieuses de la vie privée qui souhaitent des modèles à poids ouverts déployables sur des appareils périphériques pour des cas d'utilisation sensibles ou hors ligne.

Fonctionnalités clés

Voxtral Realtime

Conçu spécialement pour la transcription en direct, Voxtral Realtime utilise une architecture de streaming innovante qui transcrit l'audio au fur et à mesure de sa réception. Il offre une latence configurable pouvant descendre en dessous de 200 ms, permettant des agents vocaux avec une précision quasi hors ligne. Avec un délai de 480 ms, il reste dans une marge d'erreur de 1 à 2 % sur le taux d'erreur de mots, égalant la qualité par lots pour les applications en temps réel.

Voxtral Mini Transcribe V2

Ce modèle par lots atteint une qualité de transcription de pointe avec un taux d'erreur de mots d'environ 4 % sur le benchmark FLEURS et un coût de 0,003 $ par minute. Il surpasse GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal et Deepgram Nova en termes de précision, tout en traitant l'audio environ 3 fois plus rapidement que Scribe v2 d'ElevenLabs pour un cinquième du coût.

Diarisation des locuteurs et contexte adaptatif

Générez des transcriptions avec des étiquettes de locuteur et des heures de début/fin précises, idéales pour les réunions, les entretiens et les appels multipartites. Le contexte adaptatif vous permet de fournir jusqu'à 100 mots ou phrases pour guider le modèle vers l'orthographe correcte des noms, des termes techniques ou du vocabulaire spécifique à un domaine.

Poids ouverts et support multilingue

Voxtral Realtime est distribué sous licence Apache 2.0, déployable en périphérie pour des applications respectueuses de la vie privée. Les deux modèles prennent en charge nativement 13 langues, dont l'anglais, le chinois, l'hindi, l'espagnol, l'arabe, le français, le portugais, le russe, l'allemand, le japonais, le coréen, l'italien et le néerlandais.

Ce qui le distingue

Voxtral Transcribe 2 offre le taux d'erreur de mots le plus bas au prix le plus bas, avec une latence en temps réel pouvant descendre en dessous de 200 ms.

Cette combinaison de précision, de vitesse et de rentabilité est inégalée sur le marché actuel. Voxtral Mini Transcribe V2 atteint une transcription de pointe à 0,003 $ par minute, tandis que Voxtral Realtime permet une nouvelle classe d'applications vocales avec une architecture de streaming qui ne compromet pas la qualité. La publication des poids ouverts sous licence Apache 2.0 le distingue également, permettant des déploiements sensibles à la vie privée sur des appareils périphériques.

À considérer si…

Vous avez besoin d'une solution de reconnaissance vocale qui équilibre une latence ultra-faible, une haute précision et un bon rapport coût-efficacité, en particulier pour les agents vocaux en temps réel, la transcription en direct ou les applications respectueuses de la vie privée. Le modèle à poids ouverts et le support multilingue en font un choix solide pour les développeurs travaillant sur différentes plateformes et langues.

Voxtral Transcribe 2 by Mistral

Voxtral Transcribe 2 by Mistral

À propos de Voxtral Transcribe 2 by Mistral

Qu'est-ce que Voxtral Transcribe 2 ?

À qui s'adresse-t-il

Fonctionnalités clés

Voxtral Realtime

Voxtral Mini Transcribe V2

Diarisation des locuteurs et contexte adaptatif

Poids ouverts et support multilingue

Ce qui le distingue

À considérer si…

Produits associés

Commentaires

Shadow

TranslateGemma

Mistral 3

Okara