news 2026/5/9 12:19:01

Graph-autofusion super_kernel极简示例

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Graph-autofusion super_kernel极简示例

super_kernel极简sample

【免费下载链接】graph-autofusionGraph-autofusion 是一个面向昇腾(Ascend)芯片的轻量级、解耦式组件集合,旨在通过自动融合技术加速模型执行。 目前已开源 SuperKernel 组件,未来将持续开放更多自动融合相关模块。项目地址: https://gitcode.com/cann/graph-autofusion

用例功能:

该sample展示了如何使用super_kernel完成算子融合,包括算子融合的定义、编译、执行等。 核心特点:

  • 依赖简单,仅依赖AscendC与runtime环境。
  • 使用python封装底层c接口,简化开发流程。

目录结构

├── super_kernel_runtime_ascendc_only # 目录 └── superkernel_runtime_ascendc_basic.py # 主入口,流程上包含子kernel编译、superkernel编译、内存分配、加载执行等 └── compile_sk.py # 编译sub_kernel、super_kernel算子 └── utils.py # 工具函数

用例介绍

该用例通过编译时依赖ascendc,执行时依赖runtime,展示了super_kernel的基本功能。主要分为几步:

    1. 初始化
    1. 编译sub_kernel,编译super_kernel,设置super kernel中子kernel的topo关系,便于内存分配
    1. 内存分配,输入数据构造
    1. kernel加载
    1. launch执行,包含args排布等
    1. 打印输出, 输出结果校验
    1. 资源清理释放,包括内存、kernel、stream等

解释说明:

  1. 子kernel的拓扑关系,通过字符串表示,比如pow的输出是isinf的输入,则pow的output与isinf的input使用相同字符串表示
  2. 分配内存时通过字符串来表达内存相同的内存地址
  3. launch args时,按照[pow_in1, pow_in2, pow_ws, isinf_in1, isinf_out1, isinf_ws]排布

执行命令

python3 superkernel_runtime_ascendc_basic.py

预期执行结果

执行后打印显示success

execute sample success

【免费下载链接】graph-autofusionGraph-autofusion 是一个面向昇腾(Ascend)芯片的轻量级、解耦式组件集合,旨在通过自动融合技术加速模型执行。 目前已开源 SuperKernel 组件,未来将持续开放更多自动融合相关模块。项目地址: https://gitcode.com/cann/graph-autofusion

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 12:18:58

CANN算子库GeGlu函数文档

aclnnGeGlu 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-nn 📄 查看源码 产品支持情况 产品是否支持 Ascend 950PR/Ascend 950DT √ Atlas A3 训练系列…

作者头像 李华
网站建设 2026/5/9 12:18:30

CANN/pyasc多核同步接口文档

asc.language.basic.notify_next_block 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.basic…

作者头像 李华
网站建设 2026/5/9 12:12:48

使用Taotoken CLI工具一键配置团队开发环境的最佳实践

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 使用Taotoken CLI工具一键配置团队开发环境的最佳实践 为团队统一接入大模型服务时,配置的分散和差异常常是效率的瓶颈…

作者头像 李华
网站建设 2026/5/9 12:12:28

AI Agent框架实战:从零构建可编程AI秘书,实现自动化工作流

1. 项目概述:当AI成为你的专属秘书最近在GitHub上看到一个挺有意思的项目,叫razbakov/ai-secretary。光看名字,你可能会觉得这又是一个“AI写邮件”或者“智能日程管理”的玩具。但当我真正深入去研究它的代码和设计理念后,发现它…

作者头像 李华
网站建设 2026/5/9 12:10:32

Alpamayo-R1 智能驾驶VLA大模型昇腾A2平台使用指南

Alpamayo-R1 智能驾驶VLA大模型昇腾A2平台使用指南 【免费下载链接】cann-recipes-embodied-intelligence 本项目针对具身智能业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence …

作者头像 李华
网站建设 2026/5/9 12:05:31

CANNBot内核调试指南

Kernel Debugging Playbook 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills Use this playbook when an existing kern…

作者头像 李华