TwelveLabs Marengo 3.0

TwelveLabs Marengo 3.0とは？

Marengo 3.0は、TwelveLabsが提供する最先端のマルチモーダル埋め込みモデルであり、人間のような動画理解を大規模に実現するために設計されています。手動タグ付けや単純なメタデータに依存する従来の動画分析ツールとは異なり、Marengo 3.0は動画、音声、テキストを単一の包括的な表現に融合します。これにより、ライブラリ全体にわたって自然言語による正確な動画検索と取得が可能になり、生の映像をAI対応の検索可能なアセットに数分で変換します。

対象ユーザー

メディア・エンターテインメントチーム：手動タグ付けなしで、数千時間の映像から特定のシーン、会話、感情を検索する必要がある方。
コンプライアンス・安全担当者：説明可能なAIを活用して、動画アーカイブ全体のポリシーリスク、機密コンテンツ、ブランド安全性の問題をスケーラブルに特定する必要がある方。
コンテンツ制作者・編集者：大量のデイリー素材から、自然言語による簡単な説明を使ってラフカット、テーマ別クリップ、ハイライトリールを生成したい方。

主な機能

マルチモーダル動画理解

Marengo 3.0は、動画、音声、テキストを単一の埋め込みモデルで同時に処理し、画面上で何が起こっているか、何が言われているか、どのように言われているかを包括的に理解します。これにより、ユーザーはタグを必要とせずに、数時間から数年にわたる映像の中から、特定のアクション、シーン、会話、さらには人間の感情まで検索できます。

大規模なリアルタイムインデックス作成

このプラットフォームは、単一のパイプラインを通じてマルチモーダルデータを約60倍のリアルタイム速度で取り込みます。つまり、1時間の動画が約1分でインデックス化されます。組織は1日あたり10,000時間以上を処理できるため、ボトルネックなく動画ライブラリ全体を分析することが可能です。

自動シーンセグメンテーション

Marengo 3.0は、長尺動画内の自然な区切り、シーンチェンジ、ペースの変化を、トランスクリプト分析だけでなく、実際の視覚・音声コンテンツに基づいて自動的に識別します。この能力により、動画推論のベンチマークであるVideo-MMEで第1位を獲得しました。

説明可能なコンプライアンススキャン

このモデルは、説明可能なAIを用いてポリシーリスクや機密コンテンツを表面化するため、コンプライアンスチームはフラグが立てられたセグメントを迅速かつ確信を持ってレビューできます。これにより、従来の方法と比較して手動レビュー時間を最大10倍削減します。

特筆すべき点

「トランスクリプトリーダーではない。動画推論エンジンである。」

Marengo 3.0は、音声テキスト変換を分析するだけではありません。視覚的なアクション、シーン構成、音声の手がかりなど、動画の完全なマルチモーダルコンテキストを理解します。つまり、トランスクリプトでは捉えられない特定の感情的反応、微妙なブランド配置、複雑なアクションシーケンスを特定できます。このモデルは、モダリティ全体で最先端の複合精度を達成し、動画AIが達成できることの新たなベンチマークを打ち立てています。

こんな方におすすめ

大規模な動画ライブラリを管理しており、自然言語を使って映像を検索、セグメント化、または分析する必要がある方。Marengo 3.0は、メディア制作、コンテンツコンプライアンス、スポーツ分析、または動画が主要なデータソースでありながら手動レビューが非現実的な分野の組織にとって特に価値があります。トランスクリプトしか読めないツールや広範なタグ付けが必要なツールに苦労してきた方にとって、このモデルは人間のように動画を見て理解するという根本的に異なるアプローチを提供します。

TwelveLabs Marengo 3.0

TwelveLabs Marengo 3.0