


O Marengo 3.0 é o modelo de embedding multimodal mais avançado da TwelveLabs, projetado para oferecer compreensão de vídeo semelhante à humana em escala massiva. Diferente das ferramentas tradicionais de análise de vídeo, que dependem de marcação manual ou metadados simples, o Marengo 3.0 funde vídeo, áudio e texto em uma única representação holística. Isso permite uma pesquisa e recuperação de vídeos precisa, orientada por linguagem natural, em bibliotecas inteiras — transformando imagens brutas em um ativo pesquisável e pronto para IA em minutos.
O Marengo 3.0 processa vídeo, áudio e texto juntos em um único modelo de embedding, permitindo uma compreensão holística do que acontece na tela, do que é dito e de como é dito. Isso permite que os usuários pesquisem ações, cenas, diálogos e até emoções humanas específicas em horas ou anos de material — sem necessidade de tags.
A plataforma ingere dados multimodais por meio de um único pipeline a aproximadamente 60x a velocidade em tempo real, o que significa que uma hora de vídeo é indexada em cerca de um minuto. As organizações podem processar mais de 10.000 horas por dia, tornando viável analisar bibliotecas inteiras de vídeo sem gargalos.
O Marengo 3.0 identifica automaticamente quebras naturais, mudanças de cena e variações de ritmo em vídeos de longa duração com base no conteúdo visual e de áudio real — não apenas na análise de transcrições. Essa capacidade rendeu ao modelo o 1º lugar no Video-MME, um benchmark para raciocínio em vídeo.
O modelo identifica riscos de políticas e conteúdo sensível com IA explicável, permitindo que as equipes de conformidade revisem segmentos sinalizados de forma rápida e confiante. Isso reduz o tempo de revisão manual em até 10x em comparação com métodos tradicionais.
"Não é um leitor de transcrições. É um raciocinador de vídeo."
O Marengo 3.0 não se limita a analisar fala para texto — ele compreende o contexto multimodal completo do vídeo, incluindo ações visuais, composição de cena e pistas de áudio. Isso significa que ele pode localizar uma reação emocional específica, um posicionamento sutil de marca ou uma sequência de ação complexa que nenhuma transcrição poderia capturar. O modelo alcança precisão composta de ponta entre modalidades, estabelecendo um novo padrão para o que a IA de vídeo pode realizar.
Você gerencia grandes bibliotecas de vídeo e precisa pesquisar, segmentar ou analisar material em escala usando linguagem natural. O Marengo 3.0 é especialmente valioso para organizações nas áreas de produção de mídia, conformidade de conteúdo, análise esportiva ou qualquer campo onde o vídeo seja uma fonte de dados primária, mas a revisão manual seja impraticável. Se você já enfrentou dificuldades com ferramentas que apenas leem transcrições ou exigem marcação extensa, este modelo oferece uma abordagem fundamentalmente diferente — uma que vê e entende o vídeo como os humanos fazem.
Outras ferramentas que você pode considerar
Loading comments…
Criador
mocha_byte
Visitar site
twelvelabs.io
Informações do projeto
Palavras-chave do produto
Comparar com
Conquista