CANN/torchtitan-npu快速上手指南-洪萨配资

快速上手

【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu

参考软件安装准备环境后，按照如下步骤操作，在 NPU 平台上运行 torchtitan-npu。

数据准备

下载 Tokenizer （以 DeepSeekV3.2 网络为例）。

新建 "deepseekv3.2-tokenizer" 目录，将tokenizer.json和tokenizer_config.json文件下载至该目录。

也可以通过以下方式下载 tokenizer：

# 从huggingface下载 DeepSeek V3.2 tokenizer https://huggingface.co/settings/tokens python scripts/download_hf_assets.py --repo_id deepseek-ai/DeepSeek-V3.2 --assets tokenizer

下载数据集 (以 enwiki 数据集为例)。

通过 huggingface 下载 enwiki 的 parquet 数据到./tests/assets。

cd ./tests/assets hf download lsb/enwiki20230101 --repo-type=dataset --local-dir . cd ../..

配置 CANN 环境变量

source /usr/local/Ascend/cann/set_env.sh

启动训练任务

启动 torchtitan-npu 训练任务时，推荐使用以下脚本：单机环境使用scripts/run_train.sh，多机环境使用scripts/run_train_multinodes.sh。以下展示了一些常见任务的启动方式。

单机训练任务

默认配置，以 8 NPU 启动 DeepSeek-V3.2 debug 模型训练任务：

bash scripts/run_train.sh

自定义配置，以 16 NPU 启动 DeepSeek-V3.2 4 层模型训练任务：

NGPU=16 CONFIG_FILE=./torchtitan_npu/models/deepseek_v32/train_configs/deepseek_v32_671b_4layers_debug.toml \ bash scripts/run_train.sh \ --training.steps=100 \ --training.global_batch_size=32

[!NOTE]
CONFIG_FILE: 指定模型 TOML 配置文件路径，需在该文件中预先配置好相关特性的使能。
NGPU: 指定参与训练的 NPU 数量（默认为 8）。
--training.steps与--training.global_batch_size：动态覆盖 toml 配置中[training]部分的steps与global_batch_size。

多机训练任务

在执行启动命令前，按照集群的实际情况编辑scripts/run_train_multinodes.sh文件中的网络与节点配置：

# TODO change to your network interface Network_Interface=enp23s0f3 # 填入 ifconfig 的驱动名 ... # TODO change to your device ips IPs=('192.168.xxx.xxx' '192.168.xxx.xxx') # 填入集群的所有IP # TODO change 192.168 to your local IP LOCAL_HOST=`ifconfig|grep "inet 192.168"| awk '{print $2}'` # 将 "192.168" 替换为当前 IP

在所有参与训练的节点上同时执行run_train_multinodes.sh，以启动多机预训练任务。以 DeepSeek-V3.2 完整模型为例：

CONFIG_FILE=./torchtitan_npu/models/deepseek_v32/train_configs/deepseek_v32_671b_61layers_4k_128die.toml \ bash scripts/run_train_multinodes.sh \ --training.steps=500

[!NOTE]
脚本会自动通过LOCAL_HOST匹配IPs数组以推导当前机器的NODE_RANK。若提取规则错误导致未匹配成功，脚本将报错退出。
多机通信依赖相应的端口开放，请确保MASTER_PORT(默认 6300) 以及 HCCL 通信基础端口 (默认 30000) 不被防火墙拦截。

torchtitan 仓库内置训练任务

除了 torchtitan-npu 已经适配的模型外，还可以直接下载 torchtitan 代码，使用原生配置启动训练任务：

拉取 torchtitan 代码。

cd .. git clone -b v0.2.2 https://github.com/pytorch/torchtitan.git

将 torchtitan 源代码移动至 torchtitan-npu 项目中。

cp ./torchtitan/torchtitan ./torchtitan-npu/ -r

在 torchtitan-npu 项目中，使用 torchtitan 原生 toml 配置文件，启动训练。以 llama3 的 debug_model 配置为例:

cd torchtitan-npu CONFIG_FILE="../torchtitan/models/llama3/train_configs/debug_model.toml" \ bash scripts/run_train.sh

【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

大文件如何分享给别人？盘点2025最适合传输大文件的方法

无论是把公司电脑上的项目文件带回家继续赶工，还是在新旧两台电脑间迁移资料，我们总会遇到“电脑之间互传文件”的需求。文件小的时候还好说，一旦文件变大、变多，或者需要频繁传输，很多人就开始头疼了。其实&#…

李华

CANN / ops-cv：AI CPU算子开发指南

AI CPU算子开发指南【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv 概述使用说明算子根据运行的硬件单元不同，可分为AI Core算子和AI CPU…

李华

CANN/ops-cv图像处理算子库

贡献指南【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv 本项目欢迎广大开发者体验并参与贡献，请在参与社区贡献之前参见cann-community先了解…

李华

联邦学习与Transformer融合：在CV与入侵检测中的隐私保护分布式智能实践

1. 项目概述与核心价值最近几年，我一直在关注一个技术交叉点：如何让模型在“看不见”彼此数据的情况下，还能协同进化，变得更聪明。这听起来有点像天方夜谭，但在数据隐私法规日益收紧、数据孤岛问题愈发严重的今天&…

李华

VideoWorld 2：跨域视频理解的通用知识迁移技术

1. 项目背景与核心价值VideoWorld 2这个项目名乍看简单，却暗含了计算机视觉领域最前沿的研究方向——如何让AI系统从真实视频流中提取可迁移的通用知识。这不同于传统的视频分析任务，其核心挑战在于突破特定场景的局限，建立跨领域的认知能力。…

李华

GPT-3.5在独裁者游戏中的公平性实验：AI决策的统计模式与伦理启示

1. 项目概述：当AI成为“裁判”，公平性如何定义？最近在翻看一些行为经济学和博弈论的资料时，一个经典的实验模型——“独裁者游戏”——反复出现在眼前。这个实验很简单：两个人，一笔钱。一个人是“独裁者”&…

李华