IPO早知道 2025-07-09 20:00 3169阅读
GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。
据IPO早知道消息,GLM-4.1V-9B-Thinking凭借9B的模型尺寸,日前成功登顶HuggingFace Trending第一。
作为一款支持图像、视频、文档等多模态输入的通用推理型大模型,GLM-4.1V-Thinking专为复杂认知任务设计。它在 GLM-4V 架构基础上引入“思维链推理机制(Chain-of-Thought Reasoning)”,采用“课程采样强化学习策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,系统性提升模型跨模态因果推理能力与稳定性。
其轻量版 GLM-4.1V-9B-Thinking 模型参数控制在10B级别,在兼顾部署效率的同时实现性能突破。该模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld 等28项权威评测中,有23项达成10B级模型的最佳成绩,其中18项更是持平或超越参数量高达72B的Qwen-2.5-VL,充分展现了小体积模型的极限性能潜力。
通过有效的混合训练,GLM-4.1V-9B-Thinking融合了丰富的多模态模型能力,包括但不限于:
视频理解:能够解析最长两小时的视频内容,通过推理对视频中的时间、人物、事件和逻辑关系进行准确分析;
图像问答:对图像中的内容进行深入分析和解答,具备较强的逻辑能力和世界知识;
学科解题:支持对数学、物理、生物、化学等学科问题的看图解题,通过推理给出详细的思考过程;
文字识别:对图片和视频中的文字和图表内容进行准确抽取和结构化输出;
文档解读:对金融、政务、教育等领域的文档内容进行准确的原生理解、抽取、提炼和问答;
Grounding:识别图片中的特定区域并抽取坐标位置,支持各种需要定位信息的下游任务;
GUI Agent:识别网页、电脑屏幕、手机屏幕等交互界面元素,支持点击、滑动等指令执行能力;
代码生成:能够基于输入的图片文字内容自动编写前端代码,看图写网页。
某种程度上而言,GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。
本文为IPO早知道原创
作者|Stone Jin
本文来源:IPO早知道
来源:IPO早知道
点击下载App参与更多互动