news 2026/5/5 6:03:57

智谱×昇腾×昇思:自主创新算力赋能,多模态SOTA模型再迎新突破

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
智谱×昇腾×昇思:自主创新算力赋能,多模态SOTA模型再迎新突破

在AI核心技术从“专用工具”向“通用智能伙伴”跨越的今天,全球算力升级正在支撑百万级Token的长上下文处理,并通过整合文本、图像、音频、视频及3D点云等多源数据,推动人机交互向“所见即所得”的多模态交互演进。

继谷歌发布Nano Banana Pro认知型生成模型之后,1月14日,智谱联合华为也正式发布了新一代图像生成模型GLM-Image。作为智谱面向「认知型生成」技术范式的一次重要探索,该模型采用自主创新的「自回归+扩散解码器」混合架构,实现了图像生成与语言模型的协同。

得益于昇腾NPU和昇思MindSpore AI框架所提供的从数据到训练的全流程支撑,GLM-Image不仅是首个基于自主创新算力底座全程训练的SOTA多模态模型,也是首个开源的工业表现级离散自回归图像生成模型。1月15日,GLM-Image更是登顶全球知名AI开源社区Hugging Face Trending榜。这也是中国首次实现基于自主创新算力底座的前沿多模态模型全流程训练与全球开源榜首突破。

可以说,GLM-Image的创新实践,既验证了在昇腾全栈算力底座上训练高性能多模态生成模型的可行性,也为社区挖掘自主创新算力潜力提供了重要参考。

拥抱架构创新,打造中国版开源Nano Banana

过去几年,文本生成图像(T2I)与多模态生成式模型的能力突飞猛进,尤其是Nano Banana Pro的问世,文本生成图像正在广泛应用于角色一致性、照片修复及无限画布局部编辑等场景,成为创意与技术深度融合的助推器。

作为全球首家以通用人工智能(AGI)基座大模型为核心业务的上市公司,智谱也在积极开展AI图像生成与编辑模型的创新。智谱全新推出的GLM-Image,在实际复杂图文任务中的表现让人眼前一亮。

比如,在科普插画中,GLM-Image可以绘制出包含复杂逻辑流程与文字说明的科普插画及原理示意图;在社交媒体图文封面中,GLM-Image可以制作社交媒体封面及内容等排版复杂的图片;在商业海报中,GLM-Image能够生成构图富有设计感、文字嵌入准确的节日海报与商业宣传图。

GLM-Image之所以能够让创作更自由丰富,首先得益于创新的「自回归+扩散解码器」混合架构,可兼顾全局指令理解与局部细节刻画,克服海报、PPT、科普图等知识密集型场景生成难题。同时,GLM-Image还能够自适应处理多种分辨率,帮助用户生成任意比例的图像。

在此基础上,GLM-Image在文字渲染的权威榜单中达到开源SOTA水平。其中,在CVTG-2K(复杂视觉文本生成)和LongText-Bench(长文本渲染)榜单均位列开源模型第一,可大大提升在图像中同时生成多处文字的准确性,以及渲染长文本、多行文字的准确性。

昇腾+昇思,全栈自主创新算力底座助力模型训练

除了采用创新的混合架构之外,GLM-Image还是首个基于自主创新算力底座全程训练的SOTA模型。模型的自回归结构基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,完成了从数据预处理到大规模训练的全流程构建,充分验证了在全栈自主创新算力底座上也能训练出SOTA模型。

其中,Atlas 800T A2作为昇腾训练服务器设备,具有高计算密度、高能效比、高网络带宽、易扩展、易管理等特点,可以更好地满足智谱在深度学习模型开发和AI训练服务场景上的需要。

而昇思MindSpore AI框架则内置大模型训练所需的多种并行能力,可提供简单易用的大模型分布式策略配置接口,帮助智谱快速实现高性能的大模型分布式训练。同时,该框架通过动静统一编程,可最大程度地发挥昇腾硬件能力,帮助智谱缩短训练时间,提升推理性能。

依托昇腾NPU与昇思MindSpore AI框架,智谱利用动态图多级流水下发、高性能融合算子、多流并行等特性,自研了一整套模型训练套件,对数据预处理、预训练、SFT(监督微调)和RL(强化学习)的端到端流程进行了全面优化。

其中,借助动态图的多级流水优化机制,将Host侧算子下发的关键阶段流水化并高度重叠,可提升训练性能20%;借助AdamW EMA、COC、RMS Norm等昇腾亲和的高性能融合算子,可提升训练的稳定性,并将通信效率提升15%;借助多流并行策略,将通信和计算相互掩盖,打破了文本梯度同步、图像特征广播等操作的通信墙,可整体提升训练性能10%。

自主创新算力引领,人工智能产业发展再迎新突破

当前,全球AI产业竞争日趋激烈,国外大模型技术的创新与迭代速度持续加快。在此背景下,智谱携手华为,在积极探索模型架构创新的同时,将自主创新算力充分应用到SOTA多模态模型训练中,不仅展现出中国企业在AI领域的创新实力,更凸显了自主创新算力底座所扮演的重要角色。

首先,验证了自主创新算力也能高性能训出SOTA模型。如今,模型训练对算力的计算精度、通信效率、软硬件协同优化的要求持续提升。智谱通过“昇腾+昇思”的应用实践,不仅打破了自主创新算力难以胜任尖端AI训练的刻板印象,也充分证明了自主创新算力完全有能力承载并驱动最前沿的AI研究与工程实践。

其次,为中国AI企业开展模型训练提供了极具价值的参考借鉴。智谱借助“昇腾+昇思”,从数据预处理、预训练到监督微调,再到强化学习,为中国企业、开源社区开展模型训练提供了端到端的全流程自主创新技术的落地范例,可帮助企业开发者降低自主创新算力底座的应用门槛,加速推进模型创新与落地进程。

再次,推动了全栈自主创新算力生态的繁荣发展。AI产业的创新发展,离不开算力底座、模型架构和应用落地三者的相互协同,智谱与昇腾、昇思的协同,不仅提升了模型训练的效率与安全性,也反向驱动了昇腾与昇思的能力提升,加速自主创新算力底座从“可用”到“好用”的进化,并为推进AI产业生态的繁荣奠定了坚实基础。

最后,加速了多模态AI技术自主创新与普惠化进程。多模态作为通往通用人工智能的关键一环,其能力直接关乎未来数字内容创作、智能交互等核心产业的创新发展。智谱借助昇腾、昇思成功训练出GLM-Image,意味着中国AI产业可以更加安全、高效地开展多模态AI的创新,从而推动多模态技术更快速、更广泛地应用到各行各业。

在多模态AI成为技术创新与产业应用核心方向的今天,智谱携手昇腾、昇思,其突破性远远不止于打造一个优秀的图像生成模型,更是一次自主创新算力底座支撑SOTA模型训练的关键验证。随着智谱与昇腾合作的持续深化,也将吸引更多企业加入自主创新的AI生态构建中,推动中国AI产业高质量发展。未来,中国AI产业完全有能力构建从算力底座到应用创新的全链路竞争力,并为全球AI产业的发展贡献中国智慧和中国方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/30 8:56:52

收藏必备!大模型知识蒸馏技术调研:黑盒、白盒与混合方法全解析

文章调研了大模型知识蒸馏近年工作,分为黑盒和白盒两种类型。黑盒蒸馏在工业界应用更广,白盒蒸馏在学术界研究较多。文章介绍了代表性文献,包括DeepSeek-R1、MiniPLM等黑盒方法,以及DistilQwen2.5等黑白盒结合方法,并讨…

作者头像 李华
网站建设 2026/4/28 21:54:02

如何搭建一个GPU训练集群——把手教你从零开始

大家好,我是V哥。 话说AI运维工程师的成长路径,GPU集群到底怎么搭?公司让我搞这个,我连从哪下手都不知道啊! 行,今天V哥就把这事儿给你掰开了、揉碎了讲清楚。不整那些高大上的概念轰炸,就用大白…

作者头像 李华
网站建设 2026/5/4 18:58:25

文本补全软件 espanso 配置某个应用单独使用某个补全

espanso 官网:https://espanso.org/ (1) config是配置文件目录 match是放补全规则的地方 (2) 先在match文件夹建补全规则 注意文件名以下划线开头,代表这个文件默认不生效 matches:- trigger: "s…

作者头像 李华
网站建设 2026/5/5 0:25:04

基于AI的政府审计监管系统对比:哪家更值得信赖?

基于AI的政府审计监管系统对比:哪家更值得信赖?在数字化转型的浪潮中,政府审计监管系统正逐渐引入人工智能技术,以提升审计效率和准确性。本文将对市场上主流的基于AI的政府审计监管系统进行对比分析,帮助读者了解各家…

作者头像 李华
网站建设 2026/5/2 13:26:46

Java+AI 核心指南:大模型丝滑接入与多模型统一范式

在人工智能技术深入企业业务的当下,Java作为企业级应用开发的主流技术栈,如何高效集成AI能力、实现业务系统智能化升级,成为众多技术团队面临的核心课题。不同于Python在AI算法研发领域的优势,Java技术栈的核心价值在于稳定的工程…

作者头像 李华
网站建设 2026/5/4 18:45:57

面试常见问题之剖析哈希表

一、时间复杂度基础- 时间复杂度是衡量算法效率的指标,用大O表示法(如O(1)、O(n)、O(n^2))。数值越小,算法效率越高。 - O(1):无循环的简单操作,如赋值、基本运算、数组下标访问。 - O(n):单层循…

作者头像 李华