news 2026/4/15 6:13:07

LongCat-Flash与GLM-4.6V,昇腾CANN异构计算深水区突围详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LongCat-Flash与GLM-4.6V,昇腾CANN异构计算深水区突围详解

自2024年下半年以来,大模型产业进入了一个充满张力的“双需求”周期。一方面,模型参数量持续向万亿级突破,以追求更强的智能涌现;另一方面,落地场景,尤其是在端侧交互与实时推理,对响应速度(Latency)的要求却近乎苛刻。

这种矛盾在MoE(混合专家)架构成为主流后变得尤为尖锐。虽然MoE凭借稀疏激活特性实现了“高参数、低计算量”,但其带来的通信风暴、专家调度复杂性以及负载不均衡难题,使其被业内称为推理部署的“噩梦”。

如何在算力底座上驯服这些庞然大物?近期,两个标志性事件给出了答案:美团发布的5600亿参数LongCat-Flash MoE模型,在昇腾Atlas A3平台上创下了TPOT(每Token生成时间)10ms的极致记录;而智谱AI最新的GLM-4.6V系列,则实现了在昇腾硬件上的0-Day首发适配。

在第三期的“昇腾CANN开源开放创享周”系列直播节目中,昇腾CANN生态技术专家郭光浩和昇腾CANN大模型技术专家许可对此进行了详细解读。

透过这两个独立但极具代表性的样本,我们大致可以窥见异构计算架构(CANN)在深水区的工程化解题思路。

拆解MoE困局:当“专家”变多,路就堵了

LongCat-Flash不仅参数量高达5600亿,其结构复杂度也极高:由MLA(Multi-Head Latent Attention)、DenseFFN以及MoE三个核心模块组成。其中MoE模块包含768个专家,分为512个路由专家和256个零计算专家。

在推理部署时,面对如此庞大的专家数量,通常采用EP(Expert Parallelism,专家并行)方案,将专家均匀切分到不同的计算卡上。然而,这直接引入了两个核心痛点:

1. 计算量的抖动:必须确保EP组内每张卡分配到的Token数量接近,否则会出现严重的负载不均衡。

2. 通信的瓶颈:Token需要在不同卡之间进行路由(Dispatch)和汇聚(Combine)。在多卡并行下,如果通信链路拥堵,专家的计算优势将被IO等待完全吞噬。

破局之道:多流并行与Single-Batch Overlap

许可介绍,为了解决上述问题,昇腾CANN团队在适配LongCat-Flash时,利用其SC-MoE(Shortcut-Connected MoE)架构特性,设计了一套深度的多流并行(Multi-Stream Parallelism)方案。

所谓的SC-MoE架构,具备“兵分两路”的特性:在前向传播中,一路结果直接给MoE模块,另一路则给DenseFFN及及第二个MLA模块。这为硬件层面的并行提供了绝佳的窗口——即Single-Batch Overlap (SBO)

在具体的工程实现上,CANN将计算任务拆解到两条独立的计算流(Stream)上,Stream 1负责MLA、DenseFFN等算子,Stream 2负责MoE专家算子。

其关键在于引入了CV控核技术,通过精细控制Cube核(矩阵运算)和Vector核(向量运算)的资源分配,确保两路计算流互不抢占资源。最终达到的效果是:将MoE专家流中巨大的通信耗时和计算耗时,掩盖在另一路FFN和MLA的计算耗时之下。

此外,针对EP模式下频繁的跨卡通信,Atlas A3平台的Matrix Link高速互联能力发挥了关键作用,确保在增加部署卡数时,通信开销不会线性增长,从而避免了MoE专家流出现“长拖尾”现象。

压榨硬件极限:毫秒级时延是如何“抠”出来的?

宏观的架构优化解决了“路通”的问题,但要达到TPOT 10ms的极致性能,还需要在微观层面“抠”出每一个毫秒。在LongCat-Flash的优化案例中,许可分享的三项“微操”技术值得关注。

1. Super Kernel:消除调度的“碎片时间”

在大模型网络中,存在大量的小算子。虽然单个算子的执行时间很短,但成百上千的Task等待调度开销,积少成多后会成为隐形损耗。

CANN采用了Super Kernel技术,将网络中标定范围内的多个算子融合成一个“超级任务”进行下发。在LongCat-Flash中,研发团队分别在MLA段和两条并行流上标定了三个Super Kernel Scope,利用调度间隙优化算子的核启动时间,大幅降低了算子间的Overhead。

2. Weight Prefetching:让数据等算力

访存墙(Memory Wall)是制约大模型推理的另一大瓶颈。当算力足够强时,数据搬运往往跟不上计算速度。

权重预取(Weight Prefetching)技术利用了算子计算时的空闲带宽。例如,在进行AddLayerNorm融合算子计算时,后台已经开始将下一个MatMul算子所需的权重数据,从全局内存(GM)搬运到读写速度更快的L2 Cache中。当计算流推进到MatMul时,数据已经“在位”,从而实现了计算与访存的流水线掩盖。

3. MTP投机推理的进阶

为了进一步降低等效时延,LongCat-Flash在昇腾上从MTP1升级支持到了MTP2(Multi-Token Prediction)

投机推理的本质是利用小模型(Draft Model)快速起草Token,再由主模型进行验证。在低时延场景下,通过提升单步推理的Token产出量(从预测1个变为预测2个甚至更多),可以显著摊薄整体的推理耗时,提升算力利用率。

融合算子的艺术:从“搭积木”到“定制模具”

在昇腾的优化哲学中,算子融合(Fusion)不是简单的物理拼接,而是对计算逻辑的深度重构。CANN提供了两类核心融合能力:

第一类是CV/VV融合。针对LongCat的MLA模块,CANN引入了MLA Prolog融合算子,它一次性替换了原有的QKV Proj、RoPE旋转位置编码以及KV Cache更新等一系列小算子逻辑。同时,FIA (FusedInferAttentionScore)融合算子替换了Core Attention的计算流程,将QKV计算与Softmax等操作完成融合,大幅提升了性能。

第二类是通算融合(MC2)。针对MoE网络特有的通信需求,MC2(MoE Dispatch & Combine)算子实现了通信与计算的算子级融合。这种细粒度的流水线设计,让Dispatch(分发)和Combine(汇聚)过程中的数据传输与计算逻辑相互掩盖,实现了“边传边算”。

另一个样本:GLM-4.6V与Host-Bound的系统级解法

如果说LongCat-Flash展示了CANN在模型架构层面的“微雕”能力,那么针对智谱AI的GLM-4.6V适配案例,则展示了其在推理引擎与系统调度层面的能力与通用性。

智谱AI近日上线并开源GLM-4.6V系列之时,昇腾作为自主创新的算力底座,首次支持了GLM系列开源模型与xLLM开源推理引擎的生态合作。不同于单纯追求单一模型的极致快,xLLM更关注服务层面的吞吐与稳定性。它采用了“服务-引擎分离”架构,配合昇腾硬件实现了动态PD分离和在离线潮汐调度,能够根据实时流量波动动态调整资源,解决了硬件利用率低的问题。

值得注意的是,在GLM系列的优化中,昇腾重点攻克了行业通用的Host-Bound(主机侧瓶颈)问题。

在高性能推理中,常出现Device侧(NPU)计算太快,而Host侧(CPU)下发指令来不及,导致NPU空转的现象,即“Host-Bound”。郭光浩介绍,CANN针对这一行业难题提供了两套系统级解法:

其一是ATB (Ascend Transformer Boost) 加速库。ATB对算子的Setup和Execute阶段进行了分离优化。在Setup阶段,通过Kernel Cache和InferShape复用,避免重复计算;在Execute阶段,将执行拆分为Pre-launch和Launch,通过分线程和全局Runner Pool机制,让算子下发更加紧凑,消除Device侧的空跑。

其二是ACL Graph(图下沉)技术,这是一个更彻底的方案。ACL Graph将Host侧需要频繁下发的算子Kernel缓存到Device侧。在第二次执行时,Host侧不再需要重新下发指令,而是直接触发Device侧重放(Replay)缓存的计算图。实测数据显示,在部分开源模型上,这种“图下沉”技术能带来高达300%的性能涨幅

此外,GLM-4.6V带来的原生Function Call“图像即参数”特性,对推理引擎的图文混排处理能力提出了新挑战,而xLLM引擎结合昇腾的全图化多层流水线架构,成功支撑了这种无需中间转换的高效多模态推理链路。

结语:开源是连接算力与场景的“握手”

从LongCat-Flash的10ms极致时延,到GLM-4.6V的0-Day引擎适配,我们看到算力底座正在经历从“可用”到“好用”的质变。

这种质变并非来自封闭的黑盒优化,而是源于开放的生态握手。无论是多流并行、Weight预取技术,还是xLLM引擎使用的ATB加速库,这些底层能力都已通过AtomGit平台开源,向开发者开放。

面对未来更长的序列(Long Context)、更复杂的模态(空间智能)以及更高效的通信需求(如Zero Copy、IPC点对点通信),昇腾CANN正在构建一个软硬协同的“积木库”。对于开发者而言,不需要每个人都去重新发明轮子,复用这些经过验证的“最佳实践”,或许是通往AI深水区最快的捷径。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 1:19:22

类图——类和接口的表示方式

类图表示法 在UML类图中,类使用包含类名,属性和方法且带有分割线的矩形来表示,比如下图表示一个Employee类属性/方法名称前面的加号和减号表示了这个属性/方法的可见性,UML类图中表示可见性的符号有三种表示public - 表示private …

作者头像 李华
网站建设 2026/4/12 21:33:50

2026企业微信SCRM新趋势:AI如何助力客户转化率提升300%

2026年私域运营的三大困境与破局关键 2026年,企业私域运营正面临三重现实挑战:流量获取成本持续攀升,客户转化效率难以突破,人工服务的滞后性导致超70%企业因响应不及时流失潜在客户。这些问题的核心,在于传统私域运营…

作者头像 李华
网站建设 2026/4/14 16:51:00

【干扰】基于恒虚警率的FMCW汽车雷达干扰抑制附Matlab复现和文献

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码获取及仿真…

作者头像 李华
网站建设 2026/4/15 5:09:27

实测国内支持Nano Banana pro的ai工具,解锁PPT可编辑新体验!

最近AI圈彻底被谷歌Nano Banana Pro(官方名Gemini 3 Pro Image)刷屏了——能精准渲染中文手写体笔记、8K风景插画秒速生成、逻辑严谨的产品说明书信息图,甚至连“用哪吒讲勾股定理”的科普漫画都能完美驾驭。后台被问爆的问题里,除…

作者头像 李华
网站建设 2026/4/12 8:43:37

MySQL常用内置函数详细介绍

文章目录一、字符串函数CONCAT()CONCAT_WS()SUBSTRING() / SUBSTR()LENGTH() / CHAR_LENGTH()REPLACE()TRIM() / LTRIM() / RTRIM()UPPER() / LOWER()LPAD() / RPAD()二、数值函数ROUND()CEIL() / CEILING() / FLOOR()ABS()MOD()RAND()POWER() / POW()SQRT()SIGN()三、日期和时…

作者头像 李华