智谱发布首个支持生成汉字的开源文生图模型CogView4，达到SOTA

IPO早知道 2025-03-04 23:36 5004阅读

「智谱2025开源年」的第一个模型。

本文为IPO早知道原创

作者｜Stone Jin

据IPO早知道消息，智谱于3月4日发布了「智谱2025开源年」的第一个模型：首个支持生成汉字的开源文生图模型——CogView4，其在 DPG-Bench基准测试中的综合评分排名第一，在开源文生图模型中达到SOTA。该模型也是首个遵循 Apache 2.0协议的图像生成模型。

具体来讲：CogView4具备较强的复杂语义对齐和指令跟随能力，支持任意长度的中英双语输入，能够生成在给定范围内的任意分辨率图像，同时具备较强的文字生成能力。

值得一提的是，CogView4在 DPG-Bench基准测试中的综合评分排名第一，在开源文生图模型中达到SOTA。DPG-Bench（Dense Prompt Graph Benchmark）是一个用于评估文本到图像生成模型的基准测试，主要关注模型在复杂语义对齐和指令跟随能力方面的表现。

从技术层面来看，CogView4具有两大技术领先性：

首先，CogView4支持中英双语提示词输入，擅长理解和遵循中文提示词，是首个能够在画面中生成汉字的开源文生图模型，能更好地满足广告、短视频等领域的创意需求。

在技术实现上，CogView4将文本编码器从纯英文的T5 encoder 换为具备双语能力的GLM-4 encoder，并通过中英双语图文对进行训练，使CogView4模型具备双语提示词输入能力。

其次，CogView4支持输入任意长度提示词，能够生成范围内任意分辨率图像，不仅使用户创作更加自由，也提升了训练效率。

CogView4模型实现了任意长度的文本描述（caption）和任意分辨率图像的混合训练范式。

目前，CogView4模型支持Apache2.0协议，后续会陆续增加ControlNet、ComfyUI等生态支持，全套的微调工具包也即将推出。最新的CogView4-6B-0304版本将于3月13日上线智谱清言（chatglm.cn）。

作为国内最早的开源大模型公司，智谱始终致力于推动AI普惠，接下来还将陆续开源基础模型、推理模型、多模态模型、Agent模型等。

本文来源：IPO早知道

来源：IPO早知道

IPO早知道

重要提示： 本文仅代表作者个人观点，并不代表乐居财经立场。本文旨在为满足广大用户的信息需求而采集提供，并非商业性或盈利性用途。任何单位或个人认为本文来源标注有误，或涉嫌侵犯其知识产权等相关权利的，请提供身份证明、权属证明及详细侵权情况证明等相关资料，点击【联系客服】或发邮件至【ljcj@leju.com】，我们将及时审核处理。

《乐居财经精选》

定制家居扩容

Tel:400-606-6969Mail:ljcj@leju.com

更多相关文章

24小时热门文章

更多热读

司南导航(688592.SH)：公司签订1.45亿元采购合同，出售水汽电离层综合探测设备等设备及服务

有连云 03-04

热门搜索

搜索历史清空