news 2026/6/10 1:50:12

GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的2倍。

不管Pony Alpha是不是智谱的,下一代旗舰大模型GLM-5都要来了。

GitHub代码确认,新一代架构细节曝光。

GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的2倍。

与此同时,OpenRouter平台上突然出现的神秘匿名模型「Pony Alpha」,编程和推理能力极为强劲,被社区91%以上的用户判断为GLM-5测试版。

受这些消息影响,智谱AI港股两日暴涨60%。

开源代码泄露参数架构

GLM-5的架构信息并非来自智谱官方,而是被开源社区从代码提交中“挖”出来的。

在vLLM推理框架的PR中,开发者发现GLM-5的实现逻辑被直接映射到了DeepSeek-V3的组件上。

GLM-5继承的第一项核心技术是DeepSeek稀疏注意力(DeepSeek Sparse Attention,DSA)。

DSA通过两阶段流程做到长文本处理效率大幅提升,输出质量几乎不受影响。

首先由Lightning Indexer轻量级组件快速扫描所有历史token并打分,评估它们与当前query token的相关性;然后只挑选得分最高的Top-k个token进行完整的注意力计算,其余全部跳过。

第二项技术是多Token预测(Multi-Token Prediction,MTP),用于提升模型的生成效率。

从代码中推断出的架构参数看,GLM-5包含78层隐藏层,采用MoE(混合专家)架构,共256个专家,每次推理激活8个,激活参数约44B,稀疏度5.9%,与DeepSeek-V3.2的5.4%基本持平。

上下文窗口支持最高202K token。

有开发者指出,复用DeepSeek架构意味着GLM-5可以直接受益于vLLM、SGLang等推理框架已有的优化,部署门槛会更低。

但也有人提出疑问:DeepSeek-V3架构以纯文本为主,GLM-5首发版本是否会因此缺失多模态能力?

匿名测试与春节档大混战

2月初,OpenRouter平台上新匿名免费模型,代号「Pony Alpha」,支持200K上下文窗口。

模型一上线就引起了开发者社区的广泛关注,它的编程能力非常突出,能根据单条提示直接生成完整的功能性应用程序,在复杂推理和Agent工作流上同样表现出色。

“这到底是谁家的模型”迅速成为社区热议话题。

指向GLM-5的证据链覆盖了多个维度:

时间上,「Pony Alpha」出现的节点与智谱首席科学家唐杰多次暗示的GLM-5发布窗口完全吻合。

有开发者测试发现该模型对特定token的反应和GLM系列一致。

风格上,它的输出排版习惯也与GLM系列高度一致。

GLM-5的发布窗口,恰好撞上了一个异常拥挤的档期。

唐杰在内部信中已明确预告GLM-5即将发布,多方信息指向2026年2月中旬,即春节前后。

而在同一时间段,DeepSeek新模型、Qwen 3.5、MiniMax M2.2等模型也都有消息将发布更新。

2026年的“春节档”,AI比电影那边还热闹。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 19:51:49

python微信小程序的高校自习室在线预约系统

目录高校自习室在线预约系统的摘要开发技术路线结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!高校自习室在线预约系统的摘要 该系统基于Python开发,结合微信小程序前端,旨在解决高校自习室资源分配不均、预约…

作者头像 李华
网站建设 2026/6/6 6:40:37

视频大文件在JAVA网页上传中怎么解决?

我,一个负责过30企业级文件传输项目的上海IT人,想和你聊聊这个100G大文件传输的落地方案 先抛结论:这事儿能成,但得用“定制化研发成熟组件适配”的组合拳。作为公司项目负责人,我刚带着团队啃完类似需求(…

作者头像 李华
网站建设 2026/6/8 9:39:27

计算机毕业设计springboot博客系统的设计与实现 基于SpringBoot框架的个人内容发布平台的设计与实现 基于Java Web的在线日志分享系统的设计与开发

计算机毕业设计springboot博客系统的设计与实现12xosn18 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。在信息爆炸的时代,博客作为个人表达和信息分享的重要平台&am…

作者头像 李华
网站建设 2026/6/6 7:24:43

政务CMS如何用TinyMCE实现PDF表单数据到Word的映射?

VUE后台管理中使用富文本编辑器导入word 文档进行编辑 前言 最近因业务需求在项目中嵌入了tinymce这个编辑器,用于满足平台给用户编辑各类新闻内容什么的业务需求,前后也花了不少时间体验和对比了市面上各类开源编辑器,直接将新闻部门的工作…

作者头像 李华
网站建设 2026/6/9 21:10:50

C# 实现与三菱 PLC 以太网通讯:打造功能强大的上位机程序

C#与三菱PLC以太网通讯程序上位机源码 通过3E帧SLMP /MC协议与三菱FX5U/Q系列PLC通讯 1.该程序可以与FX5U/Q系列PLC以太网通讯,根据3E帧报文写了一个类库,可以读写各种类型和区域变量。 2.支持单个变量读写和数组类型批量读写。 3.可以实时检测网络通断…

作者头像 李华
网站建设 2026/6/9 21:17:49

好写作AI:开题答辩前夜,如何用AI把“还行”变成“必过”

导语:当导师说出“题目再想想”时,你的开题进度条就卡在了99%每个研究生都经历过选题的“死亡循环”:第一版题目:宏大如国家社科基金(导师批:太空泛)第二版题目:具体到某个县城案例&…

作者头像 李华