


Marengo 3.0 es el modelo de incrustación multimodal más avanzado de TwelveLabs, diseñado para ofrecer comprensión de video similar a la humana a escala masiva. A diferencia de las herramientas tradicionales de análisis de video que dependen del etiquetado manual o metadatos simples, Marengo 3.0 fusiona video, audio y texto en una única representación holística. Esto permite una búsqueda y recuperación de video precisa, impulsada por lenguaje natural, en bibliotecas completas, transformando el material bruto en un activo listo para IA y buscable en cuestión de minutos.
Marengo 3.0 procesa video, audio y texto juntos en un único modelo de incrustación, permitiendo una comprensión holística de lo que sucede en pantalla, lo que se dice y cómo se dice. Esto permite a los usuarios buscar acciones, escenas, diálogos e incluso emociones humanas específicas a lo largo de horas o años de material, sin necesidad de etiquetas.
La plataforma ingiere datos multimodales a través de un único pipeline a aproximadamente 60 veces la velocidad en tiempo real, lo que significa que una hora de video se indexa en aproximadamente un minuto. Las organizaciones pueden procesar más de 10,000 horas al día, haciendo factible analizar bibliotecas de video completas sin cuellos de botella.
Marengo 3.0 identifica automáticamente cortes naturales, cambios de escena y cambios de ritmo en videos de larga duración basándose en el contenido visual y de audio real, no solo en el análisis de transcripciones. Esta capacidad le valió al modelo el puesto #1 en Video-MME, un punto de referencia para el razonamiento en video.
El modelo identifica riesgos de políticas y contenido sensible con IA explicable, para que los equipos de cumplimiento puedan revisar segmentos marcados rápidamente y con confianza. Esto reduce el tiempo de revisión manual hasta 10 veces en comparación con los métodos tradicionales.
"No es un lector de transcripciones. Es un razonador de video."
Marengo 3.0 no solo analiza el habla a texto, sino que comprende el contexto multimodal completo del video, incluyendo acciones visuales, composición de escenas y señales de audio. Esto significa que puede localizar una reacción emocional específica, una colocación sutil de marca o una secuencia de acción compleja que ninguna transcripción podría capturar. El modelo logra una precisión compuesta de última generación entre modalidades, estableciendo un nuevo punto de referencia para lo que la IA de video puede lograr.
Gestionas grandes bibliotecas de video y necesitas buscar, segmentar o analizar material a escala usando lenguaje natural. Marengo 3.0 es especialmente valioso para organizaciones en producción de medios, cumplimiento de contenido, análisis deportivo o cualquier campo donde el video sea una fuente de datos principal pero la revisión manual sea poco práctica. Si has tenido dificultades con herramientas que solo leen transcripciones o requieren un etiquetado extenso, este modelo ofrece un enfoque fundamentalmente diferente, uno que ve y entiende el video como lo hacen los humanos.
Otras herramientas que podrías considerar
Loading comments…
Creador
mocha_byte
Visitar sitio web
twelvelabs.io
Información del proyecto
Palabras clave del producto
Comparar con
Logro