news 2026/5/9 14:49:53

CANN/torchtitan-npu快速上手指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/torchtitan-npu快速上手指南

快速上手

【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu

参考 软件安装 准备环境后,按照如下步骤操作,在 NPU 平台上运行 torchtitan-npu。

数据准备

  1. 下载 Tokenizer (以 DeepSeekV3.2 网络为例)。

新建 "deepseekv3.2-tokenizer" 目录,将tokenizer.jsontokenizer_config.json文件下载至该目录。

也可以通过以下方式下载 tokenizer:

# 从huggingface下载 DeepSeek V3.2 tokenizer https://huggingface.co/settings/tokens python scripts/download_hf_assets.py --repo_id deepseek-ai/DeepSeek-V3.2 --assets tokenizer
  1. 下载数据集 (以 enwiki 数据集 为例)。

通过 huggingface 下载 enwiki 的 parquet 数据 到./tests/assets

cd ./tests/assets hf download lsb/enwiki20230101 --repo-type=dataset --local-dir . cd ../..

配置 CANN 环境变量

source /usr/local/Ascend/cann/set_env.sh

启动训练任务

启动 torchtitan-npu 训练任务时,推荐使用以下脚本:单机环境使用scripts/run_train.sh,多机环境使用scripts/run_train_multinodes.sh。以下展示了一些常见任务的启动方式。

单机训练任务

默认配置,以 8 NPU 启动 DeepSeek-V3.2 debug 模型训练任务:

bash scripts/run_train.sh

自定义配置,以 16 NPU 启动 DeepSeek-V3.2 4 层模型训练任务:

NGPU=16 CONFIG_FILE=./torchtitan_npu/models/deepseek_v32/train_configs/deepseek_v32_671b_4layers_debug.toml \ bash scripts/run_train.sh \ --training.steps=100 \ --training.global_batch_size=32

[!NOTE]

  • CONFIG_FILE: 指定模型 TOML 配置文件路径,需在该文件中预先配置好相关特性的使能。
  • NGPU: 指定参与训练的 NPU 数量(默认为 8)。
  • --training.steps--training.global_batch_size:动态覆盖 toml 配置中[training]部分的stepsglobal_batch_size

多机训练任务

在执行启动命令前,按照集群的实际情况编辑scripts/run_train_multinodes.sh文件中的网络与节点配置:

# TODO change to your network interface Network_Interface=enp23s0f3 # 填入 ifconfig 的驱动名 ... # TODO change to your device ips IPs=('192.168.xxx.xxx' '192.168.xxx.xxx') # 填入集群的所有IP # TODO change 192.168 to your local IP LOCAL_HOST=`ifconfig|grep "inet 192.168"| awk '{print $2}'` # 将 "192.168" 替换为当前 IP

在所有参与训练的节点上同时执行run_train_multinodes.sh,以启动多机预训练任务。以 DeepSeek-V3.2 完整模型为例:

CONFIG_FILE=./torchtitan_npu/models/deepseek_v32/train_configs/deepseek_v32_671b_61layers_4k_128die.toml \ bash scripts/run_train_multinodes.sh \ --training.steps=500

[!NOTE]

  • 脚本会自动通过LOCAL_HOST匹配IPs数组以推导当前机器的NODE_RANK。若提取规则错误导致未匹配成功,脚本将报错退出。
  • 多机通信依赖相应的端口开放,请确保MASTER_PORT(默认 6300) 以及 HCCL 通信基础端口 (默认 30000) 不被防火墙拦截。

torchtitan 仓库内置训练任务

除了 torchtitan-npu 已经适配的模型外,还可以直接下载 torchtitan 代码,使用原生配置启动训练任务:

  1. 拉取 torchtitan 代码。
cd .. git clone -b v0.2.2 https://github.com/pytorch/torchtitan.git
  1. 将 torchtitan 源代码移动至 torchtitan-npu 项目中。
cp ./torchtitan/torchtitan ./torchtitan-npu/ -r
  1. 在 torchtitan-npu 项目中,使用 torchtitan 原生 toml 配置文件,启动训练。以 llama3 的 debug_model 配置为例:
cd torchtitan-npu CONFIG_FILE="../torchtitan/models/llama3/train_configs/debug_model.toml" \ bash scripts/run_train.sh

【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 14:49:52

大文件如何分享给别人?盘点2025最适合传输大文件的方法

无论是把公司电脑上的项目文件带回家继续赶工,还是在新旧两台电脑间迁移资料,我们总会遇到“电脑之间互传文件”的需求。 文件小的时候还好说,一旦文件变大、变多,或者需要频繁传输,很多人就开始头疼了。 其实&#…

作者头像 李华
网站建设 2026/5/9 14:49:02

CANN / ops-cv:AI CPU算子开发指南

AI CPU算子开发指南 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 概述 使用说明 算子根据运行的硬件单元不同,可分为AI Core算子和AI CPU…

作者头像 李华
网站建设 2026/5/9 14:46:45

CANN/ops-cv图像处理算子库

贡献指南 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 本项目欢迎广大开发者体验并参与贡献,请在参与社区贡献之前参见cann-community先了解…

作者头像 李华
网站建设 2026/5/9 14:41:31

VideoWorld 2:跨域视频理解的通用知识迁移技术

1. 项目背景与核心价值VideoWorld 2这个项目名乍看简单,却暗含了计算机视觉领域最前沿的研究方向——如何让AI系统从真实视频流中提取可迁移的通用知识。这不同于传统的视频分析任务,其核心挑战在于突破特定场景的局限,建立跨领域的认知能力。…

作者头像 李华
网站建设 2026/5/9 14:39:34

GPT-3.5在独裁者游戏中的公平性实验:AI决策的统计模式与伦理启示

1. 项目概述:当AI成为“裁判”,公平性如何定义?最近在翻看一些行为经济学和博弈论的资料时,一个经典的实验模型——“独裁者游戏”——反复出现在眼前。这个实验很简单:两个人,一笔钱。一个人是“独裁者”&…

作者头像 李华