And
【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit
产品支持情况
功能说明
每对elements按位与运算,公式表达如下:
函数原型
整个tensor参与计算
dst = src0 & src1;tensor前n个数据计算
template <typename T> __aicore__ inline void And(const LocalTensor<T>& dst, const LocalTensor<T>& src0, const LocalTensor<T>& src1, const int32_t& count)tensor高维切分计算
mask逐bit模式
template <typename T, bool isSetMask = true> __aicore__ inline void And(const LocalTensor<T>& dst, const LocalTensor<T>& src0, const LocalTensor<T>& src1, uint64_t mask[], const uint8_t repeatTime, const BinaryRepeatParams& repeatParams)mask连续模式
template <typename T, bool isSetMask = true> __aicore__ inline void And(const LocalTensor<T>& dst, const LocalTensor<T>& src0, const LocalTensor<T>& src1, uint64_t mask, const uint8_t repeatTime, const BinaryRepeatParams& repeatParams)
参数说明
表 1模板参数说明
表 2参数说明
返回值说明
无
约束说明
操作数地址对齐要求请参见通用地址对齐约束。
操作数地址重叠约束请参考通用地址重叠约束。
使用整个tensor参与计算接口符号重载时,运算量为目的LocalTensor的总长度。
针对Ascend 950PR/Ascend 950DT,uint8_t/int8_t/uint64_t/int64_t数据类型仅支持tensor前n个数据计算接口。
特别地,针对uint32_t/int32_t类型的And操作,支持通过ReinterpretCast的方式来实现:使用Local Tensor的ReinterpretCast转换成uint16_t/int16_t后再调用And进行计算。直接传入uint32_t/int32_t类型的数据,在不同版本型号上表现会有所差异,考虑到算子在各个版本中的兼容性,不建议使用这种直接传入的方式:
整个tensor参与计算和tensor前n个数据计算接口支持传入uint32_t/int32_t类型,但是tensor前n个数据计算的count需要设置为期望计算个数的2倍才能精度符合预期;tensor高维切分计算接口直接编译报错提示不支持该数据类型。上述说明适用于以下型号:
Atlas A2 训练系列产品/Atlas A2 推理系列产品
Atlas A3 训练系列产品/Atlas A3 推理系列产品
调用示例
tensor高维切分计算样例-mask连续模式
uint64_t mask = 128; // repeatTime = 4,一次迭代计算128个数,共计算512个数 // dstBlkStride, src0BlkStride, src1BlkStride = 1,单次迭代内数据连续读取和写入 // dstRepStride, src0RepStride, src1RepStride = 8,相邻迭代间数据连续读取和写入 AscendC::And(dstLocal, src0Local, src1Local, mask, 4, { 1, 1, 1, 8, 8, 8 });tensor高维切分计算样例-mask逐bit模式
uint64_t mask[2] = { UINT64_MAX, UINT64_MAX }; // repeatTime = 4,一次迭代计算128个数,共计算512个数 // dstBlkStride, src0BlkStride, src1BlkStride = 1,单次迭代内数据连续读取和写入 // dstRepStride, src0RepStride, src1RepStride = 8,相邻迭代间数据连续读取和写入 AscendC::And(dstLocal, src0Local, src1Local, mask, 4, { 1, 1, 1, 8, 8, 8 });tensor前n个数据计算样例
AscendC::And(dstLocal, src0Local, src1Local, 512);
结果示例如下:
输入数据src0Local:[1 2 3 ... 512] 输入数据src1Local:[513 512 511 ... 2] 输出数据dstLocal:[1 0 3 ... 0]【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考