热门搜索

搜索历史清空

智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一

IPO早知道 2025-07-09 20:00 3169阅读


GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。

据IPO早知道消息,GLM-4.1V-9B-Thinking凭借9B的模型尺寸,日前成功登顶HuggingFace Trending第一。


作为一款支持图像、视频、文档等多模态输入的通用推理型大模型,GLM-4.1V-Thinking专为复杂认知任务设计。它在 GLM-4V 架构基础上引入“思维链推理机制(Chain-of-Thought Reasoning)”,采用“课程采样强化学习策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,系统性提升模型跨模态因果推理能力与稳定性。

其轻量版 GLM-4.1V-9B-Thinking 模型参数控制在10B级别,在兼顾部署效率的同时实现性能突破。该模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld 等28项权威评测中,有23项达成10B级模型的最佳成绩,其中18项更是持平或超越参数量高达72B的Qwen-2.5-VL,充分展现了小体积模型的极限性能潜力。

通过有效的混合训练,GLM-4.1V-9B-Thinking融合了丰富的多模态模型能力,包括但不限于:

视频理解:能够解析最长两小时的视频内容,通过推理对视频中的时间、人物、事件和逻辑关系进行准确分析;

图像问答:对图像中的内容进行深入分析和解答,具备较强的逻辑能力和世界知识;

学科解题:支持对数学、物理、生物、化学等学科问题的看图解题,通过推理给出详细的思考过程;

文字识别:对图片和视频中的文字和图表内容进行准确抽取和结构化输出;

文档解读:对金融、政务、教育等领域的文档内容进行准确的原生理解、抽取、提炼和问答;

Grounding:识别图片中的特定区域并抽取坐标位置,支持各种需要定位信息的下游任务;

GUI Agent:识别网页、电脑屏幕、手机屏幕等交互界面元素,支持点击、滑动等指令执行能力;

代码生成:能够基于输入的图片文字内容自动编写前端代码,看图写网页。

某种程度上而言,GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。

本文为IPO早知道原创

作者|Stone Jin

本文来源:IPO早知道

来源:IPO早知道

重要提示: 本文仅代表作者个人观点,并不代表乐居财经立场。本文旨在为满足广大用户的信息需求而采集提供,并非商业性或盈利性用途。任何单位或个人认为本文来源标注有误,或涉嫌侵犯其知识产权等相关权利的,请提供身份证明、权属证明及详细侵权情况证明等相关资料,点击【联系客服】或发邮件至【ljcj@leju.com】,我们将及时审核处理。

24小时热门文章

更多热读

最新文章

更多原创

评论

点击下载App参与更多互动

前往乐居财经APP查看原文,体验更佳

榜单