news 2026/5/9 12:54:45

CANN/hccl主机侧Socket端口范围配置

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/hccl主机侧Socket端口范围配置

HCCL_HOST_SOCKET_PORT_RANGE

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

功能描述

当通信域的创建方式为“基于root节点信息创建”时,开发者可通过此环境变量配置HCCL在Host侧使用的通信端口。

该环境变量支持配置为具体的端口、端口范围或者字符串“auto”。

  • 若指定具体的端口号或端口范围,规划的端口数量建议不小于单个NPU上的HCCL进程数,端口号取值范围为[1,65535],且需要确保指定的端口未被其他进程占用。需要注意,[1,1023]为系统保留端口,应避免使用这些端口。

    具体的端口号与端口范围可以组合使用,中间使用英文“,”分隔,但逗号之间的端口号/端口范围不能存在范围重叠,配置方式可参见配置示例。

  • 若指定为字符串“auto”,代表HCCL使用的Host通信端口由操作系统动态分配。

配置示例

# 方式一:配置为端口范围。 export HCCL_HOST_SOCKET_PORT_RANGE="60000-60050" # 方式二:具体的端口号与端口范围配合使用,使用英文“,”分隔。 export HCCL_HOST_SOCKET_PORT_RANGE="60000,60050-60100,60150-60160" # 方式三:指定具体的端口号,使用英文“,”分隔。 export HCCL_HOST_SOCKET_PORT_RANGE="56000,56005,56007,56008,56100,56105,56107,56108" # 方式四:操作系统动态分配端口号 export HCCL_HOST_SOCKET_PORT_RANGE="auto"

使用约束

  • 若业务为单卡多进程场景(即多个业务进程同时共用一个NPU),建议配置此环境变量,否则业务可能会因为端口冲突运行失败。但需要注意,多进程会对资源开销、通信性能产生影响。
  • 此环境变量优先级高于HCCL_IF_BASE_PORT,若配置了此环境变量,HCCL在Host侧使用的通信端口以此环境变量为准。
  • 针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,若网络中存在MC²通算融合算子(计算和通信融合的算子,例如AllGatherMatmul、MatmulReduceScatter、AlltoAllAllGatherBatchMatMul等),不支持配置此环境变量。

支持的型号

Ascend 950PR/Ascend 950DT

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品/Atlas A2 推理系列产品(针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。)

【免费下载链接】hccl集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 12:54:44

强化学习在工业控制中的Sim-to-Real迁移挑战与优化

1. 强化学习在工业控制中的模拟到现实挑战 在工业过程控制领域,强化学习(Reinforcement Learning, RL)正逐渐展现出其独特的价值。作为一名长期从事工业自动化与智能控制的研究者,我亲眼见证了RL技术从实验室走向实际产线的艰难历…

作者头像 李华
网站建设 2026/5/9 12:53:45

Figma中文插件:3步解决英文界面障碍,让设计效率提升50%

Figma中文插件:3步解决英文界面障碍,让设计效率提升50% 【免费下载链接】figmaCN 中文 Figma 插件,设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 还在为Figma复杂的英文界面而烦恼?Figma中文插…

作者头像 李华
网站建设 2026/5/9 12:53:36

人机协同AI加速科学发现:融合专家知识、物理约束与主动学习

1. 项目概述:当AI遇见人类直觉“人机协同”这个词听起来有点宏大叙事,但落到我们这些一线科研工作者和算法工程师手里,它其实非常具体。我干了十几年,从早期的数据挖掘到现在的深度学习,一个越来越深的感触是&#xff…

作者头像 李华
网站建设 2026/5/9 12:52:41

CANN/HCOMM通信域配置

HcclCommConfig 【免费下载链接】hcomm HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。 项目地址: https://gitcode.com/cann/hcomm 功能说明 初始化具有特定配置的通信域时,此数据类…

作者头像 李华
网站建设 2026/5/9 12:52:37

CANN/sip编译构建指南

编译与构建 【免费下载链接】sip 本项目是CANN提供的一款高效、可靠的高性能信号处理算子加速库,基于华为Ascend AI处理器,专门为信号处理领域而设计。 项目地址: https://gitcode.com/cann/sip SiP编译 下载加速库源码 git clone https://gitc…

作者头像 李华
网站建设 2026/5/9 12:49:09

CANN/cann-recipes-embodied-intelligence ACT训练样例

ACT 在昇腾 Atlas A2 上的训练样例 【免费下载链接】cann-recipes-embodied-intelligence 本项目针对具身智能业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-embodied-intelligence 本目录提供 A…

作者头像 李华