


O Voxtral Transcribe 2 é uma família de modelos de fala para texto de última geração da Mistral, oferecendo transcrição ultrarrápida e altamente precisa com capacidades em tempo real e diarização de falantes. Inclui dois modelos: o Voxtral Mini Transcribe V2 para transcrição em lote e o Voxtral Realtime para aplicações ao vivo. Juntos, eles suportam 13 idiomas, timestamps ao nível da palavra, ajuste de contexto e implantação com foco em privacidade — tudo com velocidade e custo líderes do setor.
Projetado especificamente para transcrição ao vivo, o Voxtral Realtime usa uma arquitetura de streaming inovadora que transcreve o áudio à medida que chega. Ele oferece latência configurável de até menos de 200ms, permitindo agentes de voz com precisão quase offline. Com um atraso de 480ms, mantém-se dentro de 1–2% de taxa de erro de palavras, igualando a qualidade em lote para aplicações em tempo real.
Este modelo em lote alcança qualidade de transcrição de ponta com aproximadamente 4% de taxa de erro de palavras no benchmark FLEURS e $0,003 por minuto. Ele supera o GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal e Deepgram Nova em precisão, enquanto processa áudio cerca de 3 vezes mais rápido que o Scribe v2 da ElevenLabs por um quinto do custo.
Gere transcrições com rótulos de falantes e horários de início/término precisos, ideal para reuniões, entrevistas e chamadas com múltiplos participantes. O ajuste de contexto permite fornecer até 100 palavras ou frases para guiar o modelo em direção à grafia correta de nomes, termos técnicos ou vocabulário específico de domínio.
O Voxtral Realtime é distribuído sob a licença Apache 2.0, implantável na borda para aplicações com foco em privacidade. Ambos os modelos suportam nativamente 13 idiomas, incluindo inglês, chinês, hindi, espanhol, árabe, francês, português, russo, alemão, japonês, coreano, italiano e holandês.
O Voxtral Transcribe 2 oferece a menor taxa de erro de palavras pelo menor preço, com latência em tempo real de até menos de 200ms.
Esta combinação de precisão, velocidade e eficiência de custos é incomparável no mercado atual. O Voxtral Mini Transcribe V2 alcança transcrição de ponta a $0,003 por minuto, enquanto o Voxtral Realtime possibilita uma nova classe de aplicativos com foco em voz, com arquitetura de streaming que não compromete a qualidade. O lançamento de pesos abertos sob a licença Apache 2.0 o diferencia ainda mais, permitindo implantações sensíveis à privacidade em dispositivos de borda.
Você precisa de uma solução de fala para texto que equilibre latência ultrabaixa, alta precisão e custo-benefício — especialmente para agentes de voz em tempo real, transcrição ao vivo ou aplicações com foco em privacidade. O modelo de pesos abertos e o suporte multilíngue o tornam uma escolha forte para desenvolvedores que criam em várias plataformas e idiomas.
Outras ferramentas que você pode considerar
Loading comments…
Criador
async_apple
Visitar site
mistral.ai/news/voxtral-transcribe-2
Informações do projeto
Palavras-chave do produto
Conquista