


Voxtral Transcribe 2 は、Mistral 社による次世代音声認識モデルファミリーです。リアルタイム機能と話者分離を備え、超高速かつ高精度な文字起こしを実現します。バッチ文字起こし用の Voxtral Mini Transcribe V2 と、ライブアプリケーション向けの Voxtral Realtime の2つのモデルで構成されています。これらは合わせて13言語、単語レベルのタイムスタンプ、コンテキストバイアス、プライバシーファーストのデプロイを、業界トップクラスの速度とコストでサポートします。
ライブ文字起こし専用に設計された Voxtral Realtime は、新しいストリーミングアーキテクチャを採用し、音声が到着すると同時に文字起こしを行います。設定可能なレイテンシは200ミリ秒未満まで対応し、オフラインに近い精度の音声エージェントを実現します。480ミリ秒の遅延では、ワードエラーレート1~2%以内に収まり、リアルタイムアプリケーションでバッチ品質に匹敵します。
このバッチモデルは、FLEURS ベンチマークで約4%のワードエラーレート、1分あたり0.003ドルという、最先端の文字起こし品質を達成しています。精度において GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Nova を上回り、ElevenLabs の Scribe v2 と比較して約3倍の速度で音声を処理し、コストは5分の1です。
話者ラベルと正確な開始・終了時間を含む文字起こしを生成します。会議、インタビュー、複数話者の通話に最適です。コンテキストバイアス機能により、最大100語またはフレーズを指定して、名前、専門用語、ドメイン固有の語彙の正しいスペルをモデルに誘導できます。
Voxtral Realtime は Apache 2.0 ライセンスで提供され、プライバシーファーストのアプリケーション向けにエッジにデプロイ可能です。両モデルとも、英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語を含む13言語をネイティブサポートしています。
Voxtral Transcribe 2 は、最低価格で最低のワードエラーレートを実現し、リアルタイムレイテンシは200ミリ秒未満です。
精度、速度、コスト効率のこの組み合わせは、現在の市場で比類のないものです。Voxtral Mini Transcribe V2 は、1分あたり0.003ドルで最先端の文字起こしを実現し、Voxtral Realtime は、品質を損なわないストリーミングアーキテクチャにより、新しいクラスの音声ファーストアプリケーションを可能にします。Apache 2.0 でのオープンウェイトリリースも際立っており、エッジデバイスでのプライバシー重視のデプロイを可能にします。
超低レイテンシ、高精度、コスト効率のバランスが取れた音声認識ソリューションが必要な場合、特にリアルタイム音声エージェント、ライブ文字起こし、またはプライバシーファーストのアプリケーションに最適です。オープンウェイトモデルと多言語サポートにより、複数のプラットフォームや言語で開発を行う開発者にとって強力な選択肢となります。
検討すべき他のツール
Loading comments…
メーカー
async_apple
ウェブサイトを見る
mistral.ai/news/voxtral-transcribe-2
プロジェクト情報
製品キーワード
実績