news 2026/5/9 22:09:14

昇腾CANN运行时异步内存复制

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
昇腾CANN运行时异步内存复制

2_h2d_async_memory_copy

【免费下载链接】runtime本项目提供CANN运行时组件和维测功能组件。项目地址: https://gitcode.com/cann/runtime

描述

本样例展示了Host到Device的内存复制,使用aclrtMemcpyAsync内存复制接口。

产品支持情况

本样例支持以下产品:

产品是否支持
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

编译运行

环境安装详情以及运行详情请见example目录下的README。

运行步骤如下:

# ${install_root} 替换为 CANN 安装根目录,默认安装在`/usr/local/Ascend`目录 source ${install_root}/cann/set_env.sh export ASCEND_INSTALL_PATH=${install_root}/cann # ${ascend_name} 替换为昇腾AI处理器的型号,可通过 npu-smi info 查看 Name 字段并去掉空格获得,例如 ascend910b3 export SOC_VERSION=${ascend_name} # 部分样例中涉及调用AscendC算子,需配置AscendC编译器ascendc.cmake所在的路径,如 ${install_root}/cann/aarch64-linux/tikcpp/ascendc_kernel_cmake # 可在CANN包安装路径下查找ascendc_kernel_cmake,例如find ./ -name ascendc_kernel_cmake,并将${cmake_path}替换为ascendc_kernel_cmake所在路径 export ASCENDC_CMAKE_DIR=${cmake_path} # 编译运行 bash run.sh

CANN RUNTIME API

在该Sample中,涉及的关键功能点及其关键接口,如下所示:

  • 初始化
    • 调用aclInit接口初始化AscendCL配置。
    • 调用aclFinalize接口实现AscendCL去初始化。
  • Device管理
    • 调用aclrtSetDevice接口指定用于运算的Device。
    • 调用aclrtResetDeviceForce接口强制复位当前运算的Device,回收Device上的资源。
  • Stream管理
    • 调用aclrtCreateStream接口创建Stream。
    • 调用aclrtSynchronizeStream可以阻塞等待Stream上任务的完成。
    • 调用aclrtDestroyStreamForce接口强制销毁Stream,丢弃所有任务。
  • 内存管理
    • 调用aclrtMallocHost接口申请Host上的内存。
    • 调用aclrtMalloc接口申请Device上的内存。
    • 调用aclrtFreeHost接口释放Host上的内存。
    • 调用aclrtFree接口释放Device上的内存。
  • 数据传输
    • 调用aclrtMemcpyAsync接口通过内存复制的方式实现Host-to-Device数据传输。

已知issue

暂无

【免费下载链接】runtime本项目提供CANN运行时组件和维测功能组件。项目地址: https://gitcode.com/cann/runtime

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 22:08:31

Windows进程内存操控的艺术:Xenos DLL注入器深度解析

Windows进程内存操控的艺术:Xenos DLL注入器深度解析 【免费下载链接】Xenos Windows dll injector 项目地址: https://gitcode.com/gh_mirrors/xe/Xenos 当我们面对Windows系统下需要深度监控、调试或扩展第三方应用程序功能时,常常会遇到一个技…

作者头像 李华
网站建设 2026/5/9 22:01:41

芯片堆叠技术:从2.5D/3D集成到Chiplet生态的深度解析

1. 从摩尔定律的黄昏到立体集成的黎明坐在布鲁塞尔一家咖啡馆里,窗外是欧洲典型的阴雨天气,我正为明天即将开始的Imec年度ITF论坛养精蓄锐。论坛的核心议题之一,依然是那个萦绕在半导体行业心头多年的问题:极紫外光刻(…

作者头像 李华
网站建设 2026/5/9 22:00:56

AI赋能边缘计算安全:从威胁检测到隐私保护的实战指南

1. 项目概述:当边缘计算遇上AI安全,一场静默的攻防战在自动驾驶汽车需要毫秒级决策、工厂机器人需要实时协同、AR眼镜需要无延迟渲染的今天,传统的云计算“云-端”模式开始显得力不从心。数据往返云端带来的延迟,成了制约这些实时…

作者头像 李华
网站建设 2026/5/9 21:59:48

基于LLM的自动化评估框架:prometheus-eval实战指南

1. 项目概述:当大模型需要一位“裁判”最近在折腾大语言模型(LLM)应用时,我遇到了一个非常实际且头疼的问题:如何客观、高效地评估模型生成答案的质量?无论是做RAG系统、智能客服,还是内容生成工…

作者头像 李华