Voxtral Transcribe 2 by Mistral

Voxtral Transcribe 2란?

Voxtral Transcribe 2는 Mistral의 차세대 음성-텍스트 모델 제품군으로, 실시간 기능과 화자 분리 기능을 갖춘 초고속, 고정밀 전사를 제공합니다. 배치 전사용 Voxtral Mini Transcribe V2와 라이브 애플리케이션용 Voxtral Realtime의 두 가지 모델로 구성됩니다. 이 두 모델은 13개 언어, 단어 수준 타임스탬프, 컨텍스트 바이어싱, 프라이버시 우선 배포를 업계 최고 수준의 속도와 비용으로 지원합니다.

대상 사용자

음성 앱 개발자: 실시간 음성 에이전트 및 대화형 경험을 위해 200ms 미만의 지연 시간이 필요한 개발자
회의 및 통화 처리자: 다자간 전사에 정확한 화자 분리와 단어 수준 타임스탬프가 필요한 사용자
프라이버시 중시 팀: 민감하거나 오프라인 사용 사례를 위해 엣지 디바이스에 배포 가능한 오픈 가중치 모델을 원하는 팀

주요 기능

Voxtral Realtime

라이브 전사에 특화된 Voxtral Realtime은 오디오가 도착하는 대로 전사하는 혁신적인 스트리밍 아키텍처를 사용합니다. 200ms 미만까지 구성 가능한 지연 시간을 제공하여 오프라인에 가까운 정확도의 음성 에이전트를 구현합니다. 480ms 지연에서는 1~2%의 단어 오류율을 유지하며, 실시간 애플리케이션에서 배치 수준의 품질을 제공합니다.

Voxtral Mini Transcribe V2

이 배치 모델은 FLEURS 벤치마크에서 약 4%의 단어 오류율과 분당 $0.003의 비용으로 최첨단 전사 품질을 달성합니다. 정확도에서 GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova를 능가하며, ElevenLabs Scribe v2보다 약 3배 빠른 속도로 오디오를 처리하면서 비용은 5분의 1에 불과합니다.

화자 분리 및 컨텍스트 바이어싱

회의, 인터뷰, 다자간 통화에 이상적인 화자 레이블과 정확한 시작/종료 시간이 포함된 전사를 생성합니다. 컨텍스트 바이어싱을 통해 최대 100개의 단어 또는 구문을 제공하여 이름, 기술 용어, 도메인 특화 어휘의 올바른 철자를 모델이 유도하도록 할 수 있습니다.

오픈 가중치 및 다국어 지원

Voxtral Realtime은 Apache 2.0 라이선스로 제공되며, 프라이버시 우선 애플리케이션을 위해 엣지에 배포할 수 있습니다. 두 모델 모두 영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 일본어, 한국어, 이탈리아어, 네덜란드어 등 13개 언어를 기본 지원합니다.

차별점

Voxtral Transcribe 2는 가장 낮은 가격대에서 가장 낮은 단어 오류율을 제공하며, 실시간 지연 시간은 200ms 미만입니다.

정확성, 속도, 비용 효율성의 이러한 조합은 현재 시장에서 따라올 수 없는 수준입니다. Voxtral Mini Transcribe V2는 분당 $0.003의 비용으로 최첨단 전사를 달성하는 반면, Voxtral Realtime은 품질을 희생하지 않는 스트리밍 아키텍처로 새로운 차원의 음성 우선 애플리케이션을 가능하게 합니다. Apache 2.0 하의 오픈 가중치 출시는 더욱 차별화되어 엣지 디바이스에서 프라이버시에 민감한 배포를 허용합니다.

다음의 경우 확인해 볼 가치가 있습니다…

초저지연, 높은 정확도, 비용 효율성의 균형을 갖춘 음성-텍스트 솔루션이 필요할 때, 특히 실시간 음성 에이전트, 라이브 전사, 또는 프라이버시 우선 애플리케이션에 적합합니다. 오픈 가중치 모델과 다국어 지원은 다양한 플랫폼과 언어로 구축하는 개발자에게 강력한 선택지가 됩니다.