CANN/cann-recipes-infer NPU hc_pre_sinkhorn算子文档-洪萨配资

custom-npu_hc_pre_sinkhorn

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法，提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

产品支持情况

产品	是否支持
Atlas A3 推理系列产品	√
Ascend 950PR/Ascend 950DT	√

功能说明

hc_pre_sinkhorn 负责 hc_pre 的 sinkhorn 部分的计算处理，详细计算过程参考test_npu_hc_pre_sinkhorn.py

函数原型

custom.npu_hc_pre_sinkhorn(Tensor mixes, Tensor rsqrt, Tensor hc_scale, Tensor hc_base, Tensor x, int hc_mult=4, int hc_sinkhorn_iters=20, float hc_eps=1e-5) -> (Tensor, Tensor, Tensor)

参数说明

说明：
b（batch size）表示输入样本批量大小、s（sequence length）表示输入样本序列长度、hc（head count）表示注意力头数、d（head dimension）表示注意力头的维度数、T表示bs合轴后的大小。

mixes（Tensor）：必选参数，输入tensor。不支持非连续，数据格式支持ND，数据类型支持float，shape为[T, hc_mix]或[b, s, hc_mix]。
rsqrt（Tensor）：必选参数，输入tensor。不支持非连续，数据格式支持ND，数据类型支持float，shape为[T, 1]或[b, s, 1]。
hc_scale（Tensor）：必选参数，输入tensor。不支持非连续，数据格式支持ND，数据类型支持float，shape为[3]。
hc_base（Tensor）：必选参数，输入tensor。不支持非连续，数据格式支持ND，数据类型支持float，shape为[hc_mix]。
x（Tensor）：必选参数，输入tensor。不支持非连续，数据格式支持ND，数据类型支持bfloat16，shape为[T, hc_mult, d]或[b, s, hc_mult, d]。
hc_mult（int）：固定为4。
hc_sinkhorn_iters（int, 可选）：取值固定为20。
hc_eps（float, 可选）：计算过程中的$\epsilon$参数，Host侧参数。仅支持double类型，默认值为1e-05。

返回值说明

y（Tensor）：输出tensor。数据格式支持ND，数据类型支持bfloat16，shape为[T, d]或[b, s, d]。
post（Tensor）：输出tensor。数据格式支持ND，数据类型支持float，shape为[T, hc_mult]或[b, s, hc_mult]。
comb_frag（Tensor）：输出tensor。数据格式支持ND，数据类型支持float，shape为[T, hc_mult, hc_mult]或[b, s, hc_mult, hc_mult]。

约束说明

shape 字段取值范围约束 | 字段名 | 取值规则与说明 | |--------------|-------------------------------------------| | hc_mult | 取值固定为: 4 | | d | 取值固定为：4096 | | hc_mix | 取值固定为: 24 |
该接口支持推理场景下使用。
该接口支持aclgraph入图。
该接口与PyTorch配合使用时，需要保证CANN相关包与PyTorch相关包的版本匹配。

调用示例

详见 test_npu_hc_pre_sinkhorn.py

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Next.js SEO与性能优化实战：从架构到工具链的完整方案

1. 项目概述与核心价值最近在折腾一个Next.js项目，上线后发现搜索引擎收录情况不太理想，页面速度评分也总在及格线徘徊。这让我意识到，在Next.js这个强大的框架里，SEO（搜索引擎优化）和性能优化不是开箱即用…

李华

C++第八讲：string 类

C第八讲：string 类string 是STL 中最常用的容器，也是所有 C 开发者每天都会用到的工具。它彻底解决了 C 语言字符串操作繁琐、容易越界、需要手动管理内存的痛点。一、为什么必须学 string 类？1. C 语言字符串的致命缺陷C 语言中字符串是以\0…

李华

【2026年版｜建议收藏】大模型应用开发三大岗位方向对比，小白/程序员入门必看

2026年，大模型技术持续落地，相关岗位需求迎来爆发式增长，但很多小白程序员、转型开发者面对繁杂的岗位名称，常常陷入“不知道选哪个、不知道怎么准备”的困境。本文详细拆解大模型应用开发中最主流的3个岗位方向——LLM应用工程师…

李华

魔兽争霸3终极优化指南：WarcraftHelper让你的经典游戏重获新生

魔兽争霸3终极优化指南：WarcraftHelper让你的经典游戏重获新生【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3的闪退、卡…

李华

CANN/ops-cv一维线性上采样

UpsampleLinear1d 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv 产品支持情况产品是否支持Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atlas A3…

李华

Rust构建AI API网关：将Cursor CLI封装为OpenAI/Anthropic兼容接口

1. 项目概述：用Rust为Cursor AI模型打造一个通用API网关如果你和我一样，既是Cursor的深度用户，又经常需要把AI能力集成到自己的应用里，那你肯定遇到过这个痛点：Cursor的 agent 命令行工具功能强大，但它…

李华