news 2026/5/9 19:58:12

华为通信库子通信域配置创建

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
华为通信库子通信域配置创建

HcclCreateSubCommConfig

【免费下载链接】hcommHCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm

产品支持情况

  • Ascend 950PR/Ascend 950DT:支持
  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持
  • Atlas A2 训练系列产品/Atlas A2 推理系列产品:支持
  • Atlas 推理系列产品:不支持
  • Atlas 训练系列产品:支持

[!NOTE]说明 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。

功能说明

基于既有的全局通信域,切分具有特定配置的子通信域。

该子通信域创建方式无需进行socket建链与rank信息交换,可应用于业务故障下的快速通信域创建。

说明:

如果组网中卡间存在负载不均衡的情况,使用该接口创建的子通信域可能会由于卡间不同步发生建链超时。此时可通过环境变量HCCL_CONNECT_TIMEOUT增加设备间的建链超时时间。配置示例:

export HCCL_CONNECT_TIMEOUT=600

函数原型

HcclResult HcclCreateSubCommConfig(HcclComm *comm, uint32_t rankNum, uint32_t *rankIds, uint64_t subCommId, uint32_t subCommRankId, HcclCommConfig *config, HcclComm *subComm)

参数说明

参数名输入/输出描述
comm输入被切分的全局通信域。
HcclComm类型的定义可参见HcclComm。
rankNum输入需要切分的子通信域中的rank数量。
rankIds输入子通信域中rank在全局通信域中的rank id组成的数组。
需要注意:该数组应当是有序的,数组中每个rank的下标将映射为其在子通信域的rank id。
subCommId输入当前子通信域标识,用户自定义。
- 若未在config参数中配置子通信域名称“hcclCommName”,系统会使用{全局通信域名}_sub_{subCommId}作为子通信域名称,此种场景下,需要确保“subCommId”在全局通信域中保持唯一。
- 若在config参数中配置了子通信域名称“hcclCommName”,则优先以config中配置为准,此参数不再做校验。
subCommRankId输入本rank在子通信域中的rank id。
请配置为当前rank在rankIds数组中的下标索引。
config输入通信域配置项,包括buffer大小、确定性计算开关、通信域名称、通信算子展开模式等信息,配置参数需确保在合法值域内,关于HcclCommConfig中的详细参数含义及优先级可参见HcclCommConfig的定义。
需要注意:传入的config必须先调用HcclCommConfigInit对其进行初始化。
subComm输出将初始化后的子通信域以指针的信息回传给调用者。
HcclComm类型的定义可参见HcclComm。

返回值

HcclResult:接口成功返回HCCL_SUCCESS,其他失败。

约束说明

  • 属于同一子通信域的rank调用该接口时传入的rankNum、rankIds、subCommId、config均应相同。
  • 不需要创建子通信域的rank应当传入rankIds=nullptr和subCommId=0xFFFFFFFF,此场景不会对“subCommId”参数做校验。
  • 只支持从全局通信域切分子通信域,不支持在子通信域中进一步切分子通信域。

调用示例

// 初始化全局通信域 HcclComm globalHcclComm; HcclCommInitClusterInfo(rankTableFile, devId, &globalHcclComm); // 通信域配置 HcclCommConfig config; HcclCommConfigInit(&config); config.hcclBufferSize = 50; strcpy(config.hcclCommName, "comm_1"); // 初始化子通信域 HcclComm hcclComm; uint32_t rankIds[4] = {0, 1, 2, 3}; // 子通信域的 Rank 列表 // 当前rank在子通信域中的rank id设置为0 HcclCreateSubCommConfig(&globalHcclComm, 4, rankIds, 1, 0, &config, &hcclComm);

【免费下载链接】hcommHCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 19:57:11

AI行业经历三次关键拐点

AI行业三次关键拐点对比分析2015年OpenAI成立 初创阶段以非营利组织形态出现,马斯克与奥特曼共同推动通用人工智能(AGI)的伦理发展。技术路线聚焦开源与透明,标志性成果包括GPT-1和强化学习框架OpenAI Gym。此时行业竞争集中于算法…

作者头像 李华
网站建设 2026/5/9 19:53:43

nli-MiniLM2-L6-H768部署教程:低配GPU也能跑的极速文本分类方案

nli-MiniLM2-L6-H768部署教程:低配GPU也能跑的极速文本分类方案 1. 项目概述 nli-MiniLM2-L6-H768是一款基于cross-encoder/nli-MiniLM2-L6-H768轻量级NLI模型开发的本地零样本文本分类工具。它最大的特点是无需任何微调训练,只需输入文本和自定义标签…

作者头像 李华
网站建设 2026/5/9 19:47:30

L2-004 这是二叉搜索树吗?

L2-004 这是二叉搜索树吗?一棵二叉搜索树可被递归地定义为具有下列性质的二叉树:对于任一结点,其左子树中所有结点的键值小于该结点的键值;其右子树中所有结点的键值大于等于该结点的键值;其左右子树都是二叉搜索树。所…

作者头像 李华
网站建设 2026/5/9 19:47:30

CANN/ops-solver实数矩阵LU分解

Sgetrf 【免费下载链接】ops-solver 本项目是CANN提供的高级数值求解算子库,实现矩阵分解、求逆、特征值求解等功能在NPU上的加速计算。 项目地址: https://gitcode.com/cann/ops-solver 产品支持情况 产品是否支持Atlas 200I/500 A2 推理产品Atlas 推理系列…

作者头像 李华
网站建设 2026/5/9 19:41:31

对比自行维护与使用Taotoken聚合服务在稳定性上的体验差异

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比自行维护与使用Taotoken聚合服务在稳定性上的体验差异 在构建基于大模型的应用时,开发者常常需要接入多个模型提供…

作者头像 李华