热门搜索

搜索历史清空

智谱推出全球100B级最强开源多模态模型GLM-4.5V:获41个榜单SOTA

IPO早知道 2025-08-12 10:44 1703阅读


智谱在通向AGI道路上的又一探索性成果。

据IPO早知道消息,智谱于8月11日正式推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V(总参数 106B,激活参数 12B),并同步在魔搭社区与 Hugging Face 开源,这也是智谱在通向通用人工智能(AGI)道路上的又一探索性成果。

不可否认的是,多模态推理被视为通向 AGI 的关键能力之一,让 AI 能够像人类一样综合感知、理解与决策。其中,视觉-语言模型(Vision-Language Model, VLM)是实现多模态推理的核心基础。

今年7月,智谱发布并开源了全球 10B 级效果最强的 VLM——GLM-4.1V-9B-Thinking。该模型以小搏大,展现了小体积模型的极限性能潜力,上线后迅速登上 Hugging Face Trending 榜首,并累计获得超过 13 万次下载。

本次发布的GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线,在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解以及 GUI Agent等常见任务。


值得一提的是,在多模态榜单之外,智谱更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括:1、图像推理(场景理解、复杂多图分析、位置识别);2、视频理解(长视频分镜分析、事件识别);3、GUI 任务(屏幕读取、图标识别、桌面操作辅助);4、复杂图表与长文档解析(研报分析、信息提取);5、Grounding 能力(精准定位视觉元素)。同时,模型新增“思考模式”开关,用户可灵活选择快速响应或深度推理,平衡效率与效果。

从技术端来看,GLM-4.5V 由视觉编码器、MLP 适配器和语言解码器三部分组成,支持 64K 多模态长上下文,支持图像与视频输入,并通过三维卷积提升视频处理效率。模型采用双三次插值机制,有效增强了模型对高分辨率及极端宽高比图像的处理能力与稳健性;同时,引入三维旋转位置编码(3D-RoPE),显著强化了模型对多模态信息的三维空间关系的感知与推理能力。


GLM-4.5V 采用三阶段策略:预训练、监督微调(SFT)和强化学习(RL)——其中,在预训练阶段,智谱结合大规模图文交错多模态语料和长上下文内容,强化了模型对复杂图文及视频的处理能力;在 SFT 阶段,智谱引入了显式“思维链”格式训练样本,增强了 GLM-4.5V 的因果推理与多模态理解能力;最后,RL 阶段,智谱引入全领域多模态课程强化学习,通过构建多领域奖励系统(Reward System),结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),GLM-4.5V 在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。

值得注意的是,为了帮助开发者直观体验 GLM-4.5V 的模型能力,打造专属于自己的多模态应用,智谱同步开源了一款桌面助手应用——该桌面应用可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务,日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和开发者一起工作娱乐的伙伴。

此外,智谱也希望通过模型开源和API服务,赋能更多有想法的开发者,基于多模态基座模型发挥创意和想象,把过去科幻电影中的场景变为现实。

本文为IPO早知道原创

作者|Stone Jin

本文来源:IPO早知道

来源:IPO早知道

重要提示: 本文仅代表作者个人观点,并不代表乐居财经立场。本文旨在为满足广大用户的信息需求而采集提供,并非商业性或盈利性用途。任何单位或个人认为本文来源标注有误,或涉嫌侵犯其知识产权等相关权利的,请提供身份证明、权属证明及详细侵权情况证明等相关资料,点击【联系客服】或发邮件至【ljcj@leju.com】,我们将及时审核处理。

24小时热门文章

更多热读

最新文章

更多原创

评论

点击下载App参与更多互动

前往乐居财经APP查看原文,体验更佳

榜单