TwelveLabs Marengo 3.0

TwelveLabs Marengo 3.0 是什么？

Marengo 3.0 是 TwelveLabs 最先进的多模态嵌入模型，旨在实现大规模类人视频理解。与依赖手动标记或简单元数据的传统视频分析工具不同，Marengo 3.0 将视频、音频和文本融合为单一整体表征。这使得用户能够通过自然语言驱动的精准搜索和检索，在整个视频库中快速定位内容——将原始素材在几分钟内转化为AI 就绪、可搜索的资产。

适用人群

媒体与娱乐团队：需要搜索数千小时的素材，查找特定场景、对话或情感，而无需手动标记。
合规与安全官员：需要可扩展、可解释的 AI，以识别视频档案中的政策风险、敏感内容和品牌安全问题。
内容创作者与编辑：希望通过简单的自然语言描述，从海量素材中生成粗剪、主题片段或精彩集锦。

核心功能

多模态视频理解

Marengo 3.0 在单一嵌入模型中同时处理视频、音频和文本，实现对屏幕内容、语音表达及表达方式的整体理解。用户无需标签即可搜索数小时甚至数年素材中的特定动作、场景、对话乃至人类情感。

实时大规模索引

该平台通过单一管道以约 60 倍实时速度 摄取多模态数据，即一小时视频约一分钟即可完成索引。组织每天可处理 10,000 小时以上 的视频，实现无瓶颈分析整个视频库。

自动场景分割

Marengo 3.0 基于实际视觉和音频内容（而非仅转录文本分析），自动识别长视频中的自然断点、场景变化和节奏转换。该能力使其在视频推理基准 Video-MME 上排名第一。

可解释的合规扫描

该模型通过可解释 AI 识别政策风险和敏感内容，使合规团队能够快速、自信地审查标记片段。与传统方法相比，手动审查时间可减少高达 10 倍。

突出优势

“不是转录阅读器，而是视频推理器。”

Marengo 3.0 不仅分析语音转文字——它理解视频的完整多模态上下文，包括视觉动作、场景构图和音频线索。这意味着它可以定位特定的情感反应、微妙的品牌植入或复杂的动作序列，而这些是任何转录文本都无法捕捉的。该模型在多种模态上实现了最先进的复合准确率，为视频 AI 设立了新标杆。

值得关注，如果……

您管理大型视频库，并需要使用自然语言大规模搜索、分割或分析素材。Marengo 3.0 对媒体制作、内容合规、体育分析或任何以视频为主要数据源但手动审查不可行的组织尤为有价值。如果您曾因工具仅能读取转录文本或需要大量标记而困扰，该模型提供了一种根本不同的方法——一种像人类一样观看和理解视频的方法。

TwelveLabs Marengo 3.0

TwelveLabs Marengo 3.0

关于 TwelveLabs Marengo 3.0