
GLM-4.6V est la dernière série de modèles multimodaux open-source de GLM, conçue pour faire le lien entre la perception visuelle et les actions exécutables. Elle se décline en deux versions : GLM-4.6V (106B paramètres) pour le cloud et les clusters haute performance, et GLM-4.6V-Flash (9B paramètres) pour le déploiement local et les applications à faible latence. Avec une fenêtre de contexte de 128 000 tokens, le modèle traite jusqu'à ~150 pages de documents, 200 diapositives ou une heure de vidéo en une seule passe. Son innovation phare est le Function Calling natif, permettant l'utilisation directe d'outils à partir d'entrées visuelles sans conversion textuelle intermédiaire.
GLM-4.6V intègre l'invocation d'outils directement dans son pipeline visuel, éliminant le besoin de conversions textuelles séparées. Cela permet au modèle de percevoir une image, d'appeler une API de recherche et de renvoyer une réponse raisonnée, le tout en un seul flux de bout en bout. Cette capacité est entraînée à l'aide de données agentiques synthétiques à grande échelle et étendue via le Model Context Protocol (MCP).
Le modèle étend son contexte d'entraînement à 128 000 tokens, permettant une modélisation efficace des dépendances inter-modales sur des entrées à haute densité d'information. Un pré-entraînement continu systématique sur des données massives image-texte à long contexte garantit que le modèle conserve sa cohérence sur des centaines de pages ou de longues vidéos.
Lors du pré-entraînement, GLM-4.6V utilise un jeu de données multimodal à l'échelle du milliard couvrant des connaissances encyclopédiques. Ce système conceptuel multicouche améliore la perception visuelle de base et augmente la précision dans les tâches de questions-réponses inter-modales, en particulier pour les sujets complexes ou de niche.
Inspirée de l'approche UI2Code^N, le modèle peut utiliser les résultats de rendu visuel pour auto-corriger son code ou ses actions. Cette "Boucle de rétroaction visuelle" permet à GLM-4.6V d'affiner itérativement ses sorties, démontrant un potentiel pour des agents multimodaux auto-améliorants dans des scénarios métier réels.
"GLM-4.6V boucle la boucle de la perception à la compréhension jusqu'à l'exécution, permettant des tâches complexes comme la création de contenu riche en texte et la recherche visuelle sur le web en une seule passe de bout en bout."
Cette intégration native du Function Calling avec les entrées visuelles est une première parmi les modèles multimodaux open-source. L'utilisation traditionnelle d'outils nécessite plusieurs conversions textuelles lors du traitement d'images ou de vidéos, risquant une perte d'information. GLM-4.6V contourne entièrement cela, permettant au modèle de percevoir une diapositive, de récupérer des données pertinentes en ligne et de générer un rapport structuré, le tout sans étapes intermédiaires. Le résultat est une base technique unifiée pour les agents multimodaux capables de planifier, exécuter et s'auto-corriger dans des chaînes d'outils complexes.
Vous avez besoin d'un modèle multimodal open-source capable de percevoir, raisonner et agir en un seul workflow, que ce soit pour la recherche visuelle, l'analyse de documents ou la génération de code frontend. La fenêtre de contexte de 128k et l'appel d'outils natif le rendent particulièrement précieux pour les tâches à haute densité d'information comme le traitement de longues vidéos ou de rapports complexes. Les développeurs explorant les systèmes agentiques avec intégration MCP trouveront dans le Function Calling intégré et la boucle de rétroaction visuelle une base pratique pour construire des agents auto-améliorants.
D'autres outils que vous pourriez envisager
Loading comments…
Créateur
async_apple
Visiter le site web
z.ai/blog/glm-4.6v
Infos du projet
Mots-clés du produit
Comparer avec
Alternatives
Récompense