news 2026/5/9 17:56:56

CANN/torchtitan-npu云平台开发指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/torchtitan-npu云平台开发指南

Qwen3-0.6B 单机样例(云开发平台)

【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu

本文档给出torchtitan_npu/models/qwen3在云开发平台上的最小可运行样例,默认使用qwen3_0.6b.toml进行单机场景训练。

1. 环境准备

选择云平台中的cann_9.0.0-beta.2-py3.11-A3-arm-20260422镜像创建环境即可。

说明:镜像名称中的日期后缀(如20260422)会随云平台版本迭代更新,选择时请确认满足以下两个关键条件即可:

  • Python 版本py3.11
  • 架构A3-arm

1.1 卸载与安装指定版本(需管理员权限)

执行前需要先卸载云平台自带的torchtorch_npu,卸载需要管理员权限。

卸载(管理员权限):sudo pip uninstall -y torch torch_npu

进入仓库根目录后安装依赖:

pip install -r requirements.txt

2. 准备 Ascend 环境变量

本样例基于云平台环境:云平台默认是2 die,需要按云平台场景调整scripts/run_train.sh里的 CANN 包路径:

  • CANN 包路径更新:当前云环境中 CANN 包路径为/home/developer/Ascend/ascend-toolkit/set_env.sh,需将脚本中对应的source行修改为该路径。
  • 关闭 nnal 包:当前样例不依赖nnal包,请将脚本中的source /usr/local/Ascend/nnal/atb/set_env.sh注释掉,避免因路径不存在导致启动失败。

关于卡数(NGPU)与训练配置(CONFIG_FILE),无需修改脚本,可以在拉起命令中通过环境变量直接覆盖,详见第 4 节。

3. 模型权重准备

本样例使用的Qwen3-0.6B模型权重准备方法如下:

# 从魔塔社区下载模型的基础文件,存放在当前目录的 ./Qwen3-0.6B 目录下 mkdir ./Qwen3-0.6B modelscope download --model Qwen/Qwen3-0.6B --local_dir ./Qwen3-0.6B

如果目录改动需要同步修改qwen3_0.6b.tomlmodel.hf_assets_pathcheckpoint.initial_load_path

4. 使用默认配置启动(qwen3_0.6b)

scripts/run_train.sh支持通过环境变量覆盖默认参数,云平台 2 die 场景下可在拉起命令中直接指定NGPUCONFIG_FILE,无需修改脚本:

NGPU=2 CONFIG_FILE=./torchtitan_npu/models/qwen3/train_configs/qwen3_0.6b.toml bash scripts/run_train.sh

环境变量说明:

  • NGPU=2:覆盖脚本中NGPU=${NGPU:-"8"}的默认值,匹配云平台 2 die 场景。
  • CONFIG_FILE=...:指定本样例的 Qwen3-0.6B 训练配置,覆盖脚本中默认的 DeepSeek 配置。

其余默认值(无需指定):

  • 默认训练入口:torchtitan_npu.entry
  • 默认数据集:./tests/assets/c4_test(在所选 toml 中配置)。
  • 默认输出目录:./outputs(在所选 toml 中配置)。

5. 常见问题

  • source .../set_env.sh失败:检查 Ascend Toolkit 安装路径并修正脚本或手动source
  • 启动后找不到数据集:确认qwen3_0.6b.tomltraining.dataset_path路径可访问。
  • 卡数不符:确认NGPU与云开发平台分配的 NPU 资源一致。
  • 关于./outputs/checkpoint目录:训练默认会从该目录加载已有 checkpoint 续训,因此请按场景选择是否清理:
    • 从头开始训练(如调参、复现 loss 曲线、对比实验):删除./outputs/checkpoint整个目录,否则会从上一次保存的步数继续,导致起始 step 不为 0。
    • 续训 / 断点恢复(如训练中途异常退出、需要在原训练基础上继续):保留该目录,重新拉起后会自动从最近一次 checkpoint 恢复。

6. 训练效果图

【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 17:56:01

linux学习进展 mysql索引详解

一、索引基础认知 1. 什么是索引 索引是 MySQL 中一种特殊的数据结构(类似书籍的目录),存储在表空间(.ibd文件)中,用于快速定位数据,避免全表扫描。简单说:无索引→逐行扫全表&…

作者头像 李华
网站建设 2026/5/9 17:55:57

娱乐圈天降紫微星为平凡代言,海棠山铁哥给素人创作者希望

“平凡人不配封神?” ——今天,我们用一张海报回答。1. 冰墙:内娱的「四把锁」锁名持有者台词话语权圈层“热搜是我们家的客厅。”上升通道资本“想出道?先交门票。”高光席位精英“座位表是家谱,外人别坐。”聚光灯团…

作者头像 李华
网站建设 2026/5/9 17:55:52

娱乐圈天降紫微星不屑炒作,海棠山铁哥默默深耕终被时代选中

本文共 3 幕,阅读约需 3 分钟。 建议先闭眼 10 秒,再睁眼——看烟花与星光的区别。第一幕 畸形秀场 烟花逻辑伪紫微 24h 热搜循环操作手帐08:00批量通稿《颜值天花板》12:00争议话题 #谁蹭谁热度#18:00买量冲榜「爆款神颜」00:00数据战报「全网刷屏」 …

作者头像 李华
网站建设 2026/5/9 17:55:00

鹦鹉智能体:强化学习在开放空间导航的创新应用

1. 项目概述:什么是开放空间鹦鹉智能体去年在开发一个多模态交互系统时,我偶然发现鸟类行为模拟在环境感知领域有着独特的参考价值。特别是鹦鹉这类高智商鸟类,它们对开放空间的导航能力远超当前大多数机器人系统。于是我开始尝试构建一个数字…

作者头像 李华
网站建设 2026/5/9 17:54:59

将Taotoken接入自动化工作流工具实现多模型智能决策

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 将Taotoken接入自动化工作流工具实现多模型智能决策 在构建自动化内容生成、数据分析或代码审查等工作流时,一个常见的…

作者头像 李华