news 2026/5/9 15:22:35

CANN/pyasc Gather算子接口文档

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/pyasc Gather算子接口文档

asc.language.basic.gather

【免费下载链接】pyasc本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc

asc.language.basic.gather(dst: LocalTensor, src: LocalTensor, src_offset: LocalTensor, src_base: int, mask: int, repeat_times: int, dst_rep_stride: int) → None

asc.language.basic.gather(dst: LocalTensor, src: LocalTensor, src_offset: LocalTensor, src_base: int, mask: List[int], repeat_times: int, dst_rep_stride: int) → None

asc.language.basic.gather(dst: LocalTensor, src: LocalTensor, src_offset: LocalTensor, src_base: int, count: int) → None

给定输入的张量和一个地址偏移张量,本接口根据偏移地址将输入张量按元素收集到结果张量中。

对应的Ascend C函数原型

  • tensor前n个数据计算
    template <typename T> __aicore__ inline void Gather(const LocalTensor<T>& dst, const LocalTensor<T>& src, const LocalTensor<uint32_t>& srcOffset, const uint32_t srcBaseAddr, const uint32_t count)
  • tensor高维切分计算
    • mask逐bit模式
      template <typename T> __aicore__ inline void Gather(const LocalTensor<T>& dst, const LocalTensor<T>& src, const LocalTensor<uint32_t>& srcOffset, const uint32_t srcBaseAddr, const uint64_t mask[], const uint8_t repeatTime, const uint16_t dstRepStride)
    • mask连续模式
      template <typename T> __aicore__ inline void Gather(const LocalTensor<T>& dst, const LocalTensor<T>& src, const LocalTensor<uint32_t>& srcOffset, const uint32_t srcBaseAddr, const uint64_t mask, const uint8_t repeatTime, const uint16_t dstRepStride)

参数说明

  • dst:目的操作数。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。
  • src: 源操作数。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。
  • src_offset:每个元素在src中对应的地址偏移。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。 该偏移量相对于src的起始基地址而言。单位为Bytes。取值要求如下:
    • 取值应保证src元素类型位宽对齐。
    • 偏移地址后不能超出UB大小数据的范围。
    • 地址偏移的取值范围:不能超出uint32_t的范围。
  • src_base:src的起始基地址,用于指定Gather操作中源操作数的起始位置,单位为Bytes。取值应保证src元素类型位宽对齐,否则会导致非预期行为。
  • count:执行处理的数据个数。
  • mask: 控制每次迭代内参与计算的元素。
    • 逐bit模式:mask为数组形式。数组长度和数组元素的取值范围和操作数的数据类型有关。可以按位控制哪些元素参与计算,bit位的值为1表示参与计算,0表示不参与。
      • 操作数 16 位:数组长度 2,mask[0], mask[1] ∈ [0, 2⁶⁴-1],且不能同时为 0
      • 操作数 32 位:数组长度 1,mask[0] ∈ (0, 2⁶⁴-1]
      • 操作数 64 位:数组长度 1,mask[0] ∈ (0, 2³²-1]
      • 例如:mask = [8, 0],表示仅第 4 个元素参与计算
    • 连续模式:mask为整数形式。表示前面连续多少个元素参与计算。取值范围和操作数的数据类型有关,数据类型不同,每次迭代内能够处理的元素个数最大值不同。
      • 操作数 16 位:mask ∈ [1, 128]
      • 操作数 32 位:mask ∈ [1, 64]
      • 操作数 64 位:mask ∈ [1, 32]
  • repeat_time:指令迭代次数,每次迭代完成8个datablock(32Bytes)的数据收集,数据范围:repeat_time∈[0,255]。
  • dst_rep_stride:相邻迭代间的地址步长,单位是datablock(32Bytes)。

约束说明

  • 操作数地址对齐要求请参见 《Ascend C算子开发接口》 中的“通用说明和约束-通用地址对齐约束”。
  • 操作数地址重叠约束请参考 《Ascend C算子开发接口》 中的“通用说明和约束-通用地址重叠约束”。

调用示例

z_local = asc.LocalTensor(dtype=asc.float16, pos=asc.TPosition.VECOUT, addr=0, tile_size=512) src_offset = asc.LocalTensor(dtype=asc.uint32, pos=asc.TPosition.VECIN, addr=0, tile_size=512) x_local = asc.LocalTensor(dtype=asc.float16, pos=asc.TPosition.VECIN, addr=0, tile_size=512) asc.gather(z_local, x_local, src_offset, src_base=0, count=512) asc.gather(z_local, x_local, src_offset, src_base=0, mask=512, repeat_times=1, dst_rep_stride=8) uint64_max = 2**64 - 1 mask_bits = [uint64_max, uint64_max] asc.gather(z_local, x_local, src_offset, src_base=0, mask=mask_bits, repeat_times=1, dst_rep_stride=8)

【免费下载链接】pyasc本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 15:21:31

CANN/AMCT组合压缩接口文档

create_compressed_retrain_model 【免费下载链接】amct AMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。 项目地址: https://gitcode.com/cann/amct 产品支持情况 产品 是否支持 Ascend 950PR/Ascend 950DT 量化感知训练&#xff1a;INT8量化&#xff1a;√INT4量…

作者头像 李华
网站建设 2026/5/9 15:18:03

一文搞懂 Java 并发编程【附示例代码】

我是十几年Java资深开发,专注架构/面试,关注我,持续输出硬核干货。 一、并发编程基础 1. 线程和进程的区别? 线程(Thread)和进程(Process)的区别是操作系统和并发编程的基础概念,主要区别如下: 定义与本质 进程 : 操作系统资源分配的基本单位 。一个进程是程序的…

作者头像 李华
网站建设 2026/5/9 15:17:55

NHSE:三步解锁《动物森友会》无限创造力的存档编辑器

NHSE&#xff1a;三步解锁《动物森友会》无限创造力的存档编辑器 【免费下载链接】NHSE Animal Crossing: New Horizons save editor 项目地址: https://gitcode.com/gh_mirrors/nh/NHSE 动物森友会存档编辑器NHSE是一款专为《集合啦&#xff01;动物森友会》玩家打造的…

作者头像 李华
网站建设 2026/5/9 15:17:52

CANN HIXL示例指南

简介 【免费下载链接】hixl HIXL&#xff08;Huawei Xfer Library&#xff09;是一个灵活、高效的昇腾单边通信库&#xff0c;面向集群场景提供简单、可靠、高效的点对点数据传输能力。 项目地址: https://gitcode.com/cann/hixl 本项目提供了C和Python的调用样例&#…

作者头像 李华
网站建设 2026/5/9 15:17:23

Kubernetes Job与CronJob深度解析与实践

Kubernetes Job与CronJob深度解析与实践 Job与CronJob概述 在Kubernetes中&#xff0c;Job用于运行一次性任务&#xff0c;而CronJob则用于运行定时任务。本文将深入探讨Job和CronJob的核心概念、配置方法和最佳实践。 Job核心概念 1. 基本Job配置 apiVersion: batch/v1 kind: …

作者头像 李华