智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一

IPO早知道 2025-07-09 20:00 3169阅读

GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。

据IPO早知道消息，GLM-4.1V-9B-Thinking凭借9B的模型尺寸，日前成功登顶HuggingFace Trending第一。

作为一款支持图像、视频、文档等多模态输入的通用推理型大模型，GLM-4.1V-Thinking专为复杂认知任务设计。它在 GLM-4V 架构基础上引入“思维链推理机制（Chain-of-Thought Reasoning）”，采用“课程采样强化学习策略（RLCS, Reinforcement Learning with Curriculum Sampling）”，系统性提升模型跨模态因果推理能力与稳定性。

其轻量版 GLM-4.1V-9B-Thinking 模型参数控制在10B级别，在兼顾部署效率的同时实现性能突破。该模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld 等28项权威评测中，有23项达成10B级模型的最佳成绩，其中18项更是持平或超越参数量高达72B的Qwen-2.5-VL，充分展现了小体积模型的极限性能潜力。

通过有效的混合训练，GLM-4.1V-9B-Thinking融合了丰富的多模态模型能力，包括但不限于：

视频理解：能够解析最长两小时的视频内容，通过推理对视频中的时间、人物、事件和逻辑关系进行准确分析；

图像问答：对图像中的内容进行深入分析和解答，具备较强的逻辑能力和世界知识；

学科解题：支持对数学、物理、生物、化学等学科问题的看图解题，通过推理给出详细的思考过程；

文字识别：对图片和视频中的文字和图表内容进行准确抽取和结构化输出；

文档解读：对金融、政务、教育等领域的文档内容进行准确的原生理解、抽取、提炼和问答；

Grounding：识别图片中的特定区域并抽取坐标位置，支持各种需要定位信息的下游任务；

GUI Agent：识别网页、电脑屏幕、手机屏幕等交互界面元素，支持点击、滑动等指令执行能力；

代码生成：能够基于输入的图片文字内容自动编写前端代码，看图写网页。

某种程度上而言，GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。

本文为IPO早知道原创

作者｜Stone Jin

本文来源：IPO早知道

来源：IPO早知道

IPO早知道

重要提示： 本文仅代表作者个人观点，并不代表乐居财经立场。本文旨在为满足广大用户的信息需求而采集提供，并非商业性或盈利性用途。任何单位或个人认为本文来源标注有误，或涉嫌侵犯其知识产权等相关权利的，请提供身份证明、权属证明及详细侵权情况证明等相关资料，点击【联系客服】或发邮件至【ljcj@leju.com】，我们将及时审核处理。