Voxtral Transcribe 2 by Mistral

Voxtral Transcribe 2 とは

Voxtral Transcribe 2 は、Mistral 社による次世代音声認識モデルファミリーです。リアルタイム機能と話者分離を備え、超高速かつ高精度な文字起こしを実現します。バッチ文字起こし用の Voxtral Mini Transcribe V2 と、ライブアプリケーション向けの Voxtral Realtime の2つのモデルで構成されています。これらは合わせて13言語、単語レベルのタイムスタンプ、コンテキストバイアス、プライバシーファーストのデプロイを、業界トップクラスの速度とコストでサポートします。

こんな方におすすめ

音声アプリ開発者: リアルタイム音声エージェントやインタラクティブな体験に、200ミリ秒未満のレイテンシが必要な方。
会議・通話処理担当者: 複数話者の文字起こしに、正確な話者分離と単語レベルのタイムスタンプを必要とする方。
プライバシー重視のチーム: 機密性の高い用途やオフライン用途のために、エッジデバイスにデプロイ可能なオープンウェイトモデルを求める方。

主な機能

Voxtral Realtime

ライブ文字起こし専用に設計された Voxtral Realtime は、新しいストリーミングアーキテクチャを採用し、音声が到着すると同時に文字起こしを行います。設定可能なレイテンシは200ミリ秒未満まで対応し、オフラインに近い精度の音声エージェントを実現します。480ミリ秒の遅延では、ワードエラーレート1～2%以内に収まり、リアルタイムアプリケーションでバッチ品質に匹敵します。

Voxtral Mini Transcribe V2

このバッチモデルは、FLEURS ベンチマークで約4%のワードエラーレート、1分あたり0.003ドルという、最先端の文字起こし品質を達成しています。精度において GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Nova を上回り、ElevenLabs の Scribe v2 と比較して約3倍の速度で音声を処理し、コストは5分の1です。

話者分離とコンテキストバイアス

話者ラベルと正確な開始・終了時間を含む文字起こしを生成します。会議、インタビュー、複数話者の通話に最適です。コンテキストバイアス機能により、最大100語またはフレーズを指定して、名前、専門用語、ドメイン固有の語彙の正しいスペルをモデルに誘導できます。

オープンウェイトと多言語対応

Voxtral Realtime は Apache 2.0 ライセンスで提供され、プライバシーファーストのアプリケーション向けにエッジにデプロイ可能です。両モデルとも、英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語を含む13言語をネイティブサポートしています。

特筆すべき点

Voxtral Transcribe 2 は、最低価格で最低のワードエラーレートを実現し、リアルタイムレイテンシは200ミリ秒未満です。

精度、速度、コスト効率のこの組み合わせは、現在の市場で比類のないものです。Voxtral Mini Transcribe V2 は、1分あたり0.003ドルで最先端の文字起こしを実現し、Voxtral Realtime は、品質を損なわないストリーミングアーキテクチャにより、新しいクラスの音声ファーストアプリケーションを可能にします。Apache 2.0 でのオープンウェイトリリースも際立っており、エッジデバイスでのプライバシー重視のデプロイを可能にします。

こんな場合に検討する価値あり

超低レイテンシ、高精度、コスト効率のバランスが取れた音声認識ソリューションが必要な場合、特にリアルタイム音声エージェント、ライブ文字起こし、またはプライバシーファーストのアプリケーションに最適です。オープンウェイトモデルと多言語サポートにより、複数のプラットフォームや言語で開発を行う開発者にとって強力な選択肢となります。

Voxtral Transcribe 2 by Mistral

Voxtral Transcribe 2 by Mistral