
GLM-4.6V es la última serie de modelos multimodales de código abierto de GLM, diseñada para unir la percepción visual con acciones ejecutables. Está disponible en dos versiones: GLM-4.6V (106B parámetros) para la nube y clústeres de alto rendimiento, y GLM-4.6V-Flash (9B parámetros) para implementación local y aplicaciones de baja latencia. Con una ventana de contexto de 128k tokens, el modelo procesa hasta ~150 páginas de documentos, 200 diapositivas o una hora de video en una sola pasada. Su innovación destacada es el Function Calling nativo, que permite el uso directo de herramientas a partir de entradas visuales sin conversiones de texto intermedias.
GLM-4.6V integra la invocación de herramientas directamente en su pipeline visual, eliminando la necesidad de conversiones de texto separadas. Esto permite que el modelo perciba una imagen, llame a una API de búsqueda y devuelva una respuesta razonada, todo en un flujo de extremo a extremo. Esta capacidad se entrena utilizando datos sintéticos de agentes a gran escala y se extiende mediante el Protocolo de Contexto de Modelo (MCP).
El modelo extiende su contexto de entrenamiento a 128k tokens, lo que permite un modelado efectivo de dependencias multimodales en entradas de alta densidad de información. Un entrenamiento continuo sistemático en datos masivos de imagen-texto de contexto largo asegura que el modelo mantenga coherencia a través de cientos de páginas o videos extensos.
Durante el preentrenamiento, GLM-4.6V utiliza un conjunto de datos multimodal a escala de mil millones que cubre conocimiento enciclopédico. Este sistema conceptual de múltiples capas mejora la percepción visual básica y aumenta la precisión en tareas de preguntas y respuestas multimodales, particularmente para temas complejos o especializados.
Inspirado en el enfoque UI2Code^N, el modelo puede utilizar resultados de renderizado visual para autocorregir su código o acciones. Este "Bucle de Retroalimentación Visual" permite a GLM-4.6V refinar las salidas de manera iterativa, demostrando potencial para agentes multimodales auto-mejorables en escenarios empresariales reales.
"GLM-4.6V cierra el ciclo desde la percepción hasta la comprensión y la ejecución, permitiendo tareas complejas como la creación de contenido de texto enriquecido y la búsqueda visual web en una sola pasada de extremo a extremo."
Esta integración nativa de Function Calling con entradas visuales es una primicia entre los modelos multimodales de código abierto. El uso tradicional de herramientas requiere múltiples conversiones basadas en texto al manejar imágenes o videos, con riesgo de pérdida de información. GLM-4.6V evita esto por completo, permitiendo que el modelo perciba una diapositiva, recupere datos relevantes en línea y genere un informe estructurado, todo sin pasos intermedios. El resultado es una base técnica unificada para agentes multimodales que pueden planificar, ejecutar y autocorregirse en cadenas de herramientas complejas.
Necesitas un modelo multimodal de código abierto que pueda percibir, razonar y actuar en un solo flujo de trabajo, ya sea para búsqueda visual, análisis de documentos o generación de código frontend. La ventana de contexto de 128k y la llamada nativa a herramientas lo hacen especialmente valioso para tareas de alta densidad de información, como procesar videos largos o informes complejos. Los desarrolladores que exploran sistemas de agentes con integración MCP encontrarán en el Function Calling incorporado y el bucle de retroalimentación visual una base práctica para construir agentes auto-mejorables.
Otras herramientas que podrías considerar
Loading comments…
Creador
async_apple
Visitar sitio web
z.ai/blog/glm-4.6v
Información del proyecto
Palabras clave del producto
Comparar con
Alternativas
Logro