
成就


Voxtral Transcribe 2 是 Mistral 推出的新一代语音转文本模型系列,提供超快速、高精度的转录能力,支持实时处理和说话人分离。该系列包含两个模型:用于批量转录的 Voxtral Mini Transcribe V2 和用于实时应用的 Voxtral Realtime。两者共同支持 13 种语言、词级时间戳、上下文偏置以及隐私优先部署——均以行业领先的速度和成本实现。
专为实时转录设计,Voxtral Realtime 采用新颖的流式架构,可在音频到达时即时转录。它提供可配置的延迟,最低可达 200 毫秒以下,使语音代理具备接近离线模式的准确性。在 480 毫秒延迟下,其词错误率保持在 1–2% 以内,实时应用质量媲美批量模式。
该批量模型在 FLEURS 基准测试中实现了约 4% 的词错误率,每分钟成本仅 0.003 美元,达到业界领先的转录质量。在准确性上,它优于 GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal 和 Deepgram Nova,同时处理音频速度约为 ElevenLabs Scribe v2 的 3 倍,成本仅为后者的五分之一。
生成带有说话人标签及精确起止时间的转录文本,适用于会议、采访及多方通话。上下文偏置功能允许您提供最多 100 个单词或短语,引导模型正确拼写人名、技术术语或领域特定词汇。
Voxtral Realtime 采用 Apache 2.0 许可证发布,可在边缘设备上部署,满足隐私优先应用需求。两个模型原生支持 13 种语言,包括英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语。
Voxtral Transcribe 2 以最低价格实现最低词错误率,实时延迟低至 200 毫秒以下。
准确性、速度和成本效益的完美结合在当前市场中无可匹敌。Voxtral Mini Transcribe V2 以每分钟 0.003 美元的成本实现业界领先的转录质量,而 Voxtral Realtime 通过流式架构在不牺牲质量的前提下,开启了全新一代语音优先应用。在 Apache 2.0 许可下开放权重发布,进一步使其脱颖而出,支持在边缘设备上进行隐私敏感型部署。
您需要一款兼顾超低延迟、高准确性和成本效益的语音转文本解决方案——尤其适用于实时语音代理、实时转录或隐私优先应用。开放权重模型和多语言支持使其成为跨平台、跨语言开发者的理想选择。
其他您可能感兴趣的工具
你的会议AI只捕捉了一半的信息。它能听到发言内容,却忽略了屏幕上的画面。Shadow 能同时捕捉两者——无需机器人——并通过自定义AI任务将完整的上下文转化为行动。别再只做总结了,开始交付成果吧。
TranslateGemma 是一套基于 Google Gemma 3 构建的全新开源 AI 翻译模型。它支持 55 种语言的高质量交流,兼具出色的准确性与卓越的效率。专为在移动设备、本地设备及云端环境中运行而设计,且不牺牲性能。
Mistral 3 包含三款最先进的小型密集模型(14B、8B 和 3B),以及 Mistral Large 3——我们迄今为止能力最强的模型——这是一款稀疏混合专家模型,训练时使用了 41B 活跃参数和 675B 总参数。所有模型均依据 Apache 2.0 许可证发布。Ministral 模型在其类别中代表了最佳性能与成本比。同时,Mistral Large 3 跻身于前沿指令微调开源模型之列。
Loading comments…
制作者
async_apple
项目信息
产品关键词