


Marengo 3.0 est le modèle d'embedding multimodal le plus avancé de TwelveLabs, conçu pour offrir une compréhension vidéo de type humain à grande échelle. Contrairement aux outils d'analyse vidéo traditionnels qui reposent sur un étiquetage manuel ou des métadonnées simples, Marengo 3.0 fusionne la vidéo, l'audio et le texte en une seule représentation holistique. Cela permet une recherche et une récupération vidéo précises, basées sur le langage naturel, dans des bibliothèques entières — transformant des séquences brutes en actifs prêts pour l'IA et interrogeables en quelques minutes.
Marengo 3.0 traite la vidéo, l'audio et le texte ensemble dans un seul modèle d'embedding, permettant une compréhension holistique de ce qui se passe à l'écran, de ce qui est dit et de la manière dont c'est dit. Cela permet aux utilisateurs de rechercher des actions, scènes, dialogues spécifiques, et même des émotions humaines, à travers des heures ou des années de séquences — sans aucun tag requis.
La plateforme ingère des données multimodales via un pipeline unique à une vitesse d'environ 60 fois la vitesse réelle, ce qui signifie qu'une heure de vidéo est indexée en environ une minute. Les organisations peuvent traiter plus de 10 000 heures par jour, rendant possible l'analyse de bibliothèques vidéo entières sans goulots d'étranglement.
Marengo 3.0 identifie automatiquement les coupures naturelles, les changements de scène et les variations de rythme dans les vidéos longues, en se basant sur le contenu visuel et audio réel — et pas seulement sur l'analyse des transcriptions. Cette capacité a valu au modèle la première place sur Video-MME, un benchmark pour le raisonnement vidéo.
Le modèle identifie les risques politiques et les contenus sensibles grâce à une IA explicable, permettant aux équipes de conformité de réviser rapidement et en toute confiance les segments signalés. Cela réduit le temps de révision manuelle jusqu'à 10 fois par rapport aux méthodes traditionnelles.
"Pas un lecteur de transcription. Un raisonneur vidéo."
Marengo 3.0 ne se contente pas d'analyser la parole en texte — il comprend le contexte multimodal complet de la vidéo, y compris les actions visuelles, la composition des scènes et les indices audio. Cela signifie qu'il peut localiser une réaction émotionnelle spécifique, un placement de marque subtil ou une séquence d'action complexe qu'aucune transcription ne pourrait capturer. Le modèle atteint une précision composite de pointe entre les modalités, établissant une nouvelle référence pour ce que l'IA vidéo peut accomplir.
Vous gérez de grandes bibliothèques vidéo et avez besoin de rechercher, segmenter ou analyser des séquences à grande échelle en utilisant le langage naturel. Marengo 3.0 est particulièrement précieux pour les organisations dans la production médiatique, la conformité des contenus, l'analyse sportive, ou tout domaine où la vidéo est une source de données primaire mais où la révision manuelle est impraticable. Si vous avez eu du mal avec des outils qui ne lisent que les transcriptions ou nécessitent un étiquetage intensif, ce modèle offre une approche fondamentalement différente — une approche qui voit et comprend la vidéo comme le ferait un humain.
D'autres outils que vous pourriez envisager
Loading comments…
Créateur
mocha_byte
Visiter le site web
twelvelabs.io
Infos du projet
Mots-clés du produit
Comparer avec
Récompense