news 2026/6/19 23:13:29

华为CANN HCOMM CCU LoopGroup

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
华为CANN HCOMM CCU LoopGroup

LoopGroup

【免费下载链接】hcommHCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm

产品支持情况

  • Ascend 950PR/Ascend 950DT:支持
  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:不支持
  • Atlas A2 训练系列产品/Atlas A2 推理系列产品:不支持

功能说明

CCU kernel内的硬件LoopGroup类,将多个ccu::Loop对象组织为一组,共享同一份LoopEngine资源池,避免多个独立Loop各自独占LoopEngine导致资源耗尽。

构造ccu::LoopGroup时,自动将传入的loops列表中的每个Loop加入该Group。

类定义

namespace AscendC { namespace ccu { class LoopGroup { public: // 构造方式1:config-based(Group参数在注册期已知) LoopGroup(const CcuLoopGroupConfig &loopGroupCfg, uint32_t maxLoopNum, const std::vector<Loop> &loops); // 构造方式2:var-based(Group参数在运行期由Variable决定) LoopGroup(Variable &parallelCfg, Variable &offsetCfg, uint32_t maxLoopNum, const std::vector<Loop> &loops); }; } // namespace ccu } // namespace AscendC

参数说明

构造方式1:config-based

参数名输入/输出描述
loopGroupCfg输入LoopGroup配置,类型为CcuLoopGroupConfig,字段含义见下表。
maxLoopNum输入本Group最多容纳的Loop数量,框架据此预留LoopEngine资源池容量。
loops输入要加入本Group的ccu::Loop对象列表。列表中每个Loop会在LoopGroup构造函数内自动被注册到Group。

构造方式2:var-based

参数名输入/输出描述
parallelCfg输入并行配置Variable,运行期决定并行参数。该参数包含64bit,其中[47:41]表示loopgroup内包含的Loop指令个数,其中[54:48]表似乎Loopgroup中包含的Loop指令需要完成Loop自动展开的Loop偏移,其中[61:55]表示Loop需要展开的次数。举例:X[47:41]=4表示程序中包含4个Loop指令,Xn[54:48]=1表示从编号为1的Loop开始展开,Xn[61:55]=3表示loop1,loop2,loop3分别复制展开3次,loop0不进行复制,经过展开后总Loop个数为4 + (4-1) * 3 = 13
offsetCfg输入偏移配置Variable,运行期决定偏移参数。 该参数包含64bit,其中[9:0]表示Loop进行展开后使用的Event资源偏移量,[20:10]表示Loop进行展开后使用的CcuBuffer资源偏移量,[52:21]表示Loop进行展开后各个数据传输类指令使用的Address累加的偏移量。
maxLoopNum输入同构造方式1。
loops输入同构造方式1。

CcuLoopGroupConfig

config-based构造使用的参数结构,字段如下:

字段类型说明
cloneNumuint32_t并行克隆数量,指定Group内并发执行的实例数。
cloneLoopOffsetuint32_t克隆实例间Loop的偏移量。
addrOffsetuint32_t克隆实例间Address的偏移字节数。
ccuBufferOffsetuint32_t克隆实例间CcuBuffer切片的偏移片数。
eventOffsetuint32_t克隆实例间Event槽位的偏移位数。

异常

ccu::LoopGroup构造失败时抛出异常(携带CcuResult错误码)。常见原因:

原因错误码
maxLoopNum为0,或var-based构造的运行期配置Variable为空CCU_E_PARA
实际加入的Loop数超过maxLoopNum(LoopEngine池容量不足)CCU_E_PARA
物理资源(XN/GSA/CKE/MS等)不足CCU_E_UNAVAIL

约束说明

  • ccu::LoopGroup构造时会立即遍历loops列表,将每个Loop注册到Group,注册后不可再修改Group成员。
  • loops列表中的ccu::Loop对象必须已在ccu::LoopGroup构造前完成构造(即body已记录)。
  • 同一个ccu::Loop对象不应被加入多个ccu::LoopGroup
  • Group内各Loop的body约束与独立ccu::Loop相同(参见Loop的约束说明)。
  • maxLoopNum必须大于0,为0时构造直接失败(CCU_E_PARA)。
  • maxLoopNum应 ≥loops列表实际大小(即真正会加入Group的Loop数,含展开复用);偏小会导致后续加入Loop时因LoopEngine池容量不足而失败(CCU_E_PARA)。

调用示例

using namespace AscendC::ccu; // 场景:两个Loop共享LoopEngine资源池 CcuResult MyKernel(CcuKernelArg arg) { Variable r1, r2, numA, numB; numA = 10; numB = 20; Func body1([&] { r1 = numA + numB; }); Func body2([&] { r2 = numA + numA; }); CcuLoopConfig cfg1; cfg1.addrOffset = 0; cfg1.iterNum = 2; Loop l1(cfg1, body1); CcuLoopConfig cfg2; cfg2.addrOffset = 0; cfg2.iterNum = 3; Loop l2(cfg2, body2); // 将l1, l2 组织成LoopGroup,共享LoopEngine 资源池 CcuLoopGroupConfig grpCfg; grpCfg.cloneNum = 0; grpCfg.cloneLoopOffset = 0; grpCfg.addrOffset = 0; grpCfg.ccuBufferOffset = 0; grpCfg.eventOffset = 0; LoopGroup g(grpCfg, /*maxLoopNum=*/2, {l1, l2}); return CCU_SUCCESS; }

【免费下载链接】hcommHCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 23:03:00

3.gemini336相机在ubuntu22.04的ros2下运行

在这里&#xff0c;已经提前在ubuntu22.04系统下安装好了ros2&#xff0c;让相继运行步骤如下&#xff1a;1.创建 ROS2 工作空间mkdir -p ~/ros2_ws/src cd ~/ros2_ws/src2.克隆官方源码&#xff08;GitHub / Gitee 二选一&#xff09;# GitHub&#xff08;海外/稳定&#xff0…

作者头像 李华
网站建设 2026/6/19 22:49:50

Mi-Create:小米手表表盘设计的终极免费可视化工具

Mi-Create&#xff1a;小米手表表盘设计的终极免费可视化工具 【免费下载链接】Mi-Create Unofficial watchface creator for Xiaomi wearables ~2021 and above 项目地址: https://gitcode.com/gh_mirrors/mi/Mi-Create 还在为小米手表找不到心仪的表盘而烦恼吗&#x…

作者头像 李华
网站建设 2026/6/19 22:44:49

Logstash:从Syslog到Elasticsearch的日志管道实战解析

1. 为什么需要Logstash处理Syslog日志 想象一下你管理着几十台服务器&#xff0c;每台机器都在不停地生成日志。这些日志就像散落一地的拼图碎片&#xff0c;而你需要把它们拼成完整的画面。传统做法是登录每台服务器查看/var/log/syslog&#xff0c;这就像拿着放大镜一片片找…

作者头像 李华
网站建设 2026/6/19 22:40:47

500-AI-Agents-Projects学习之一.环境搭建

项目介绍 项目是基于 MIT 协议开源&#xff0c;汇总 500 余个 AI Agent 实战项目与落地用例&#xff0c;围绕四大主流框架搭建内容体系&#xff0c;兼顾入门学习、技术选型、行业落地与社区共建&#xff0c;是 AI 智能体开发的一站式参考资料 项目地址 https://github.com/a…

作者头像 李华
网站建设 2026/6/19 22:30:19

MC9S12XE复位与端口模块(PIM)配置详解:嵌入式系统稳定性的基石

1. 项目概述&#xff1a;深入MC9S12XE的复位与端口世界在嵌入式开发的江湖里&#xff0c;飞思卡尔的MC9S12XE系列算得上是“老将”了&#xff0c;尤其在汽车电子和工业控制领域&#xff0c;它的身影无处不在。我接触这个系列芯片有十多年了&#xff0c;从早期的S12到后来的XE系…

作者头像 李华
网站建设 2026/6/19 22:28:57

MC68HC908RFRK2:经典8位MCU架构解析与低功耗无线应用实战

1. 项目概述与核心价值在嵌入式开发领域&#xff0c;尤其是对功耗和成本极为敏感的无线遥控钥匙、智能传感器节点等应用中&#xff0c;选择一颗合适的微控制器是项目成败的关键。今天我想和大家深入聊聊一颗颇具代表性的经典芯片——MC68HC908RFRK2。这颗由摩托罗拉&#xff08…

作者头像 李华