news 2026/5/11 10:29:44

CANN易用性案例汇总

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN易用性案例汇总

CANN易用性案例汇总

前言

易用性是软件生态的关键一环,CANN生态团队在2025年也从算子到模型至下而上的对易用性进行改进。在算子开发层面,围绕着算子编程效率、算子编译部署效率、代码可读性从开发、编译到维护全方面地降低算子的上手难度;在模型部署层面,主要围绕着大模型两大加速利器——图模式和通信进行改进,让开发者更轻松地优化大模型的性能。这里整理了十一篇案例帮助大家了解CANN最新易用性相关的功能特性。

/易用性案例汇总
|–/算子开发
| |–/编程效率
| | |–① 算子Kernel直调极简编程实践
| | |–② AICPU Tiling下沉编程方式介绍
| | |–③ Ascend C RTC即时编译
| | |–④ TilingKey模板化编程实战
| |–/编译部署效率
| | |–① 算子Kernel直调极简编程实践
| | |–② AICPU Tiling下沉编程方式介绍
| | |–③ Ascend C RTC即时编译
| |–/代码可读性
| | |–① 算子Kernel直调极简编程实践
| | |–④ TilingKey模板化编程实战
|–/模型部署
| |–/图模式
| | |–/使能图模式编程效率
| | | |–⑤ npugraph_ex: CANN aclGraph的图模式样板间
| | |–/图自定义优化编程效率
| | | |–⑤ npugraph_ex: CANN aclGraph的图模式样板间
| | | |–⑥ 三步上手: TorchAir自定义FX Pass实战指南
| |–/通信
| | |–/编程效率
| | | |–⑦ 基于torch_npu的IPC特性介绍
| | | |–⑧ CANN开源赋能协同创新: SGLang+Mooncake+CANN HIXL的PD分离D2D部署实践
| | | |–⑨ 基于HIXL+Mooncake+VLLM的KV Cache池化与高性能传输联创手段
| | | |–⑩ 昇腾CANN HIXL助力破解RL推理长尾推理
| | |–/维测效率
| | | |–⑪ 昇腾+DeepXTrace: 推理集群快慢卡在线检测实践之MoE篇
tips:同一篇文章可能涉及多种易用性改进,因此会在上图中多次出现

案例介绍

1. 自定义算子开发系列:算子Kernel直调极简编程实践

**简介:**Kernel直调方式具备代码轻量化、开发直观便捷的优势,本文介绍了Ascend C异构混合编程和AscendOps模板化编程两种编程方式,在Kernel直调方式基础上进一步降低了算子开发实现和编译部署的难度。
文章链接:https://mp.weixin.qq.com/s/gxDwV-Q_xA8DkuJdbKvFzA

2. 自定义算子开发系列:AICPU Tiling下沉编程方式介绍

**简介:**Host Bound一直是算子调用的显著性能瓶颈,造成Host Bound的核心原因在于算子Kernel执行前需要计算出TilingData,而TilingData的计算通常是在Host侧再拷贝到Device侧。本文介绍了AICPU Tiling下沉的编程方式,使用Device侧的AICPU计算TilingData,节省了Host侧拷贝TilingData到Device侧的时间。同时支持混合编程降低了算子开发实现和编译部署的难度。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156094628?spm=1001.2014.3001.5502

3. 自定义算子开发系列:Ascend C RTC即时编译

**简介:**本文介绍了一种新的Ascend C算子编译方式——RTC即时编译。区别于静态编译提前将算子编译成二进制文件保存到存储设备的方式,RTC即时编译的算子编译发生在算子调用程序执行阶段。此时算子编译出的二进制数据保存在内存,减少了和磁盘的IO,加速了算子编译加载的速度;并且由于在调用阶段可以获取确定的算子shape、输入类型,编译出算子的执行性能也得到提升。在易用性的层面算子可以动态调整编译参数,简化了编译流程,同时不再需要构建算子工程,算子开发效率也得到提升。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156327647?spm=1011.2415.3001.5331

4. 自定义算子开发系列:TillingKey模板化编程实战

**简介:**本文介绍了Ascend C算子开发中多场景算子新的开发实现方式——TilingKey模板化编程。同一个算子存在多种不同实现的情形,需要通过TilingKey区分算子的不同实现,本文针对TilingKey引入了模板实现的概念,进一步方便了TilingKey的维护和管理,大大提升了代码可读性和编程效率。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155784629?spm=1001.2014.3001.5502

5. npugraph_ex:CANN aclGraph的图模式样板间

**简介:**本文介绍了基于torch.compile提供的昇腾高性能图后端npugraph_ex,它在基于aclGraph图捕获和重放的能力上进一步融合了亲和NPU的图优化能力,以满足大模型推理场景下的性能加速需求。npugraph_ex可以通过torch.compile接口直接使能,接入便捷,并且除了自身的图优化能力外还支持自定义图优化规则,方便开发者更好地优化模型。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156203006?spm=1001.2014.3001.5502

6. 三步上手:TorchAir自定义FX Pass实战指南

**简介:**本文介绍了在昇腾NPU上利用PyTorch图模式进行大模型推理时,通过自定义FX Pass实现多流并行优化的的原理和步骤。此种方式降低了自定义图优化的难度和门槛,当模型脚本中同一种场景的优化多次出现时不再需要多处修改脚本,只需要定义一个FX Pass就可以使能全部优化。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156022371

7. 基于torch_npu的IPC特性介绍

**简介:**本文介绍了基于昇腾torch_npu的IPC特性原理和使用方法,IPC允许不同进程之间直接访问共享的设备内存,无需显式的进行内存拷贝,既减少了操作步骤也提升了通信效率。此特性也在强化学习的实际场景中经过验证,推理进程通过共享内存直接获取训练进程的权重数据,大幅降低了推理进程的内存消耗。

文章链接:https://blog.csdn.net/m0_71340392/article/details/156044864?spm=1001.2014.3001.5502

8. CANN开源赋能协同创新:SGLang+Mooncake+CANN HIXL的PD分离D2D部署实践

**简介:**本文介绍了基于昇腾设备大模型PD分离部署D2D特性的实现原理——通过SGLang实现PD分离架构落地,Mooncake提供传输适配层,CANN的开源组件HIXL突破通信瓶颈,三者协同完成整套方案。HIXL提供的精简接口加速了方案的适配进度,同时接口也屏蔽了底层昇腾不同型号的硬件差异,降低了多种型号设备的适配成本。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155013097

9. 基于HIXL+Mooncake+VLLM的KV Cache池化与高性能传输联创手段

**简介:**本文介绍了基于CANN开源组件HIXL,结合Mooncake和vLLM框架的大模型推理KV Cache池化方案。针对单设备KV Cache存储受限的问题,该方案通过整合多存储介质构建KV Cache存储池,让请求前缀跨节点共享以提升命中率。HIXL提供的精简接口加速了方案的适配进度,同时接口也屏蔽了底层昇腾不同型号的硬件差异,降低了多种型号设备的适配成本。
文章链接:https://blog.csdn.net/m0_71340392/article/details/155537017

10.昇腾CANN HIXL助力破解RL推理长尾难题

**简介:**本文介绍了利用HIXL组件快速构建PD分离方案,解决了RL推理长尾输入运行效率低的问题。HIXL提供的精简接口加速了方案的适配进度,同时接口也屏蔽了底层昇腾不同型号的硬件差异,降低了多种型号设备的适配成本。
文章链接:https://blog.csdn.net/m0_71340392/article/details/156328048

11.昇腾+DeepXTrace:推理集群快慢卡在线检测实践之MOE篇

**简介:**本文介绍了一套为MC2 Dispatch和Combine算子设计的轻量级异常诊断方案,通过开源工具DeepXTrace和昇腾底层MoeDistributeDispatch与MoeDistributeCombine算子的改造结合,实现了诊断Dispatch与Combine操作通信缓慢原因的方案,提升了定位效率。
文章链接:https://mp.weixin.qq.com/s/AaZ3pgM-brWw8-DMxS54Wg

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 14:32:42

基于SpringBoot的绿色行动平台系统(源码+lw+部署文档+讲解等)

课题介绍本课题聚焦绿色环保公益行动的数字化协同与推广需求,设计并实现一套基于Spring Boot框架的绿色行动平台系统,旨在破解传统绿色行动中参与渠道分散、活动组织低效、成果追踪困难、公益资源整合不足等痛点问题,精准匹配公众便捷参与环保…

作者头像 李华
网站建设 2026/5/9 21:28:36

在车间折腾五轴喷涂设备时发现,西门子200SMART这套组合拳确实能打。今天就拆解下这个ST30+ST20配V90伺服的方案,咱们先从最实在的脉冲当量换算说起

西门子200SMART 5轴伺服控制程序 威纶屏 ST30ST20 2个V90伺服3个步进电机 该程序是实际项目中的。 。 有注释,有工程实际遇到的注意事项。 包括脉冲单量的换算,伺服步进马达与PLC的接线图。 屏的配方,I/O点等, 该程序可直接用于五…

作者头像 李华
网站建设 2026/5/9 16:55:20

基于主成分分析与概率神经网络的预测模型研究

预测:基于主成分分析(PCA)和概率神经网络(PNN)预测。数据预测这事儿吧,有时候就像在菜市场挑西瓜——数据维度一多,敲瓜都得敲半天。这时候就需要主成分分析(PCA)来帮我们…

作者头像 李华
网站建设 2026/5/9 3:01:31

最近在车间调试西门子S7-1200控制四轴伺服的设备,顺手整理了一套实战程序。这套程序里藏着伺服控制的十八般武艺,今天咱们边拆边聊

西门子S7-1200控制四轴伺服程序案例: 1.内容涵盖伺服,步进点动,回原,相对定位,绝对定位,速度模式控制!特别适合学习伺服和步进的朋友们!PTO伺服轴脉冲定位控制速度模式控制扭矩模式&…

作者头像 李华
网站建设 2026/5/10 11:31:30

MDIN380 SDI转VGA 转LVDS VGA转SDI 高清视频处理 MDIN380芯片 ...

MDIN380 SDI转VGA 转LVDS VGA转SDI 高清视频处理 MDIN380芯片 PCB代码方案资料 3G-SDI转VGA ?3G-SDI转LVDS ?高清视频 MDIN380、GV7601 芯片方案(PCB图和源码)。 此方案是韩国视频处理芯片MDIN380的整合应用方案。 3G-SDI转VGA或3G-SDI转LVDS。 方案共有两块电路板(一块底板…

作者头像 李华