TwelveLabs Marengo 3.0

TwelveLabs Marengo 3.0이란?

Marengo 3.0은 TwelveLabs의 가장 진보된 멀티모달 임베딩 모델로, 대규모에서 인간과 유사한 수준의 비디오 이해를 제공하도록 설계되었습니다. 수동 태깅이나 단순 메타데이터에 의존하는 기존 비디오 분석 도구와 달리, Marengo 3.0은 비디오, 오디오, 텍스트를 하나의 총체적 표현으로 융합합니다. 이를 통해 전체 라이브러리에서 정확하고 자연어 기반의 비디오 검색 및 검색이 가능해지며, 원시 영상이 단 몇 분 만에 AI 준비된 검색 가능한 자산으로 전환됩니다.

대상 사용자

미디어 및 엔터테인먼트 팀: 수천 시간 분량의 영상에서 특정 장면, 대화 또는 감정을 수동 태깅 없이 검색해야 하는 경우.
규정 준수 및 안전 책임자: 비디오 아카이브 전반에서 정책 위험, 민감 콘텐츠, 브랜드 안전 문제를 식별하기 위해 확장 가능하고 설명 가능한 AI가 필요한 경우.
콘텐츠 제작자 및 편집자: 방대한 일일 촬영본에서 간단한 자연어 설명을 사용하여 러프 컷, 주제별 클립 또는 하이라이트 릴을 생성하려는 경우.

주요 기능

멀티모달 비디오 이해

Marengo 3.0은 단일 임베딩 모델에서 비디오, 오디오, 텍스트를 함께 처리하여 화면에서 일어나는 일, 말해지는 내용, 그리고 그 방식에 대한 총체적 이해를 가능하게 합니다. 이를 통해 사용자는 수 시간 또는 수년 분량의 영상에서 특정 동작, 장면, 대화, 심지어 인간의 감정까지 태그 없이 검색할 수 있습니다.

대규모 실시간 인덱싱

이 플랫폼은 단일 파이프라인을 통해 약 실시간의 60배 속도로 멀티모달 데이터를 수집합니다. 즉, 1시간 분량의 비디오가 약 1분 만에 인덱싱됩니다. 조직은 하루 10,000시간 이상을 처리할 수 있어 병목 현상 없이 전체 비디오 라이브러리를 분석할 수 있습니다.

자동 장면 분할

Marengo 3.0은 단순한 대본 분석이 아닌 실제 시각 및 오디오 콘텐츠를 기반으로 장편 비디오의 자연스러운 전환, 장면 변화, 페이싱 변화를 자동으로 식별합니다. 이 기능은 비디오 추론 벤치마크인 Video-MME에서 1위를 차지하는 성과를 거두었습니다.

설명 가능한 규정 준수 스캐닝

이 모델은 설명 가능한 AI를 통해 정책 위험과 민감 콘텐츠를 표면화하여, 규정 준수 팀이 플래그된 세그먼트를 신속하고 확신을 가지고 검토할 수 있도록 합니다. 이는 기존 방식 대비 수동 검토 시간을 최대 10배까지 단축시킵니다.

차별화 포인트

"대본 리더가 아닌, 비디오 추론자입니다."

Marengo 3.0은 단순히 음성을 텍스트로 분석하는 것을 넘어, 시각적 동작, 장면 구성, 오디오 신호를 포함한 비디오의 전체 멀티모달 맥락을 이해합니다. 즉, 어떤 대본도 포착할 수 없는 특정 감정 반응, 미묘한 브랜드 배치, 또는 복잡한 동작 시퀀스를 찾아낼 수 있습니다. 이 모델은 모달리티 전반에서 최첨단 복합 정확도를 달성하며, 비디오 AI가 달성할 수 있는 새로운 기준을 제시합니다.

다음의 경우 확인해볼 가치가 있습니다…

대규모 비디오 라이브러리를 관리하며 자연어를 사용하여 대규모로 영상을 검색, 분할 또는 분석해야 하는 경우. Marengo 3.0은 미디어 제작, 콘텐츠 규정 준수, 스포츠 분석, 또는 비디오가 주요 데이터 소스이지만 수동 검토가 비현실적인 모든 분야의 조직에 특히 유용합니다. 대본만 읽거나 광범위한 태깅이 필요한 도구에 어려움을 겪었다면, 이 모델은 인간처럼 보고 이해하는 근본적으로 다른 접근 방식을 제공합니다.

TwelveLabs Marengo 3.0

TwelveLabs Marengo 3.0