


Marengo 3.0은 TwelveLabs의 가장 진보된 멀티모달 임베딩 모델로, 대규모에서 인간과 유사한 수준의 비디오 이해를 제공하도록 설계되었습니다. 수동 태깅이나 단순 메타데이터에 의존하는 기존 비디오 분석 도구와 달리, Marengo 3.0은 비디오, 오디오, 텍스트를 하나의 총체적 표현으로 융합합니다. 이를 통해 전체 라이브러리에서 정확하고 자연어 기반의 비디오 검색 및 검색이 가능해지며, 원시 영상이 단 몇 분 만에 AI 준비된 검색 가능한 자산으로 전환됩니다.
Marengo 3.0은 단일 임베딩 모델에서 비디오, 오디오, 텍스트를 함께 처리하여 화면에서 일어나는 일, 말해지는 내용, 그리고 그 방식에 대한 총체적 이해를 가능하게 합니다. 이를 통해 사용자는 수 시간 또는 수년 분량의 영상에서 특정 동작, 장면, 대화, 심지어 인간의 감정까지 태그 없이 검색할 수 있습니다.
이 플랫폼은 단일 파이프라인을 통해 약 실시간의 60배 속도로 멀티모달 데이터를 수집합니다. 즉, 1시간 분량의 비디오가 약 1분 만에 인덱싱됩니다. 조직은 하루 10,000시간 이상을 처리할 수 있어 병목 현상 없이 전체 비디오 라이브러리를 분석할 수 있습니다.
Marengo 3.0은 단순한 대본 분석이 아닌 실제 시각 및 오디오 콘텐츠를 기반으로 장편 비디오의 자연스러운 전환, 장면 변화, 페이싱 변화를 자동으로 식별합니다. 이 기능은 비디오 추론 벤치마크인 Video-MME에서 1위를 차지하는 성과를 거두었습니다.
이 모델은 설명 가능한 AI를 통해 정책 위험과 민감 콘텐츠를 표면화하여, 규정 준수 팀이 플래그된 세그먼트를 신속하고 확신을 가지고 검토할 수 있도록 합니다. 이는 기존 방식 대비 수동 검토 시간을 최대 10배까지 단축시킵니다.
"대본 리더가 아닌, 비디오 추론자입니다."
Marengo 3.0은 단순히 음성을 텍스트로 분석하는 것을 넘어, 시각적 동작, 장면 구성, 오디오 신호를 포함한 비디오의 전체 멀티모달 맥락을 이해합니다. 즉, 어떤 대본도 포착할 수 없는 특정 감정 반응, 미묘한 브랜드 배치, 또는 복잡한 동작 시퀀스를 찾아낼 수 있습니다. 이 모델은 모달리티 전반에서 최첨단 복합 정확도를 달성하며, 비디오 AI가 달성할 수 있는 새로운 기준을 제시합니다.
대규모 비디오 라이브러리를 관리하며 자연어를 사용하여 대규모로 영상을 검색, 분할 또는 분석해야 하는 경우. Marengo 3.0은 미디어 제작, 콘텐츠 규정 준수, 스포츠 분석, 또는 비디오가 주요 데이터 소스이지만 수동 검토가 비현실적인 모든 분야의 조직에 특히 유용합니다. 대본만 읽거나 광범위한 태깅이 필요한 도구에 어려움을 겪었다면, 이 모델은 인간처럼 보고 이해하는 근본적으로 다른 접근 방식을 제공합니다.
고려해볼 만한 다른 도구
Loading comments…
제작자
mocha_byte
웹사이트 방문
twelvelabs.io
프로젝트 정보
제품 키워드
비교
성과