Windows on Arm运行PyTorch-DirectML体验-洪萨配资

Windows on Arm运行PyTorch-DirectML体验

在轻薄本续航动辄突破20小时的今天，越来越多开发者开始把目光投向搭载高通骁龙芯片的Windows on Arm（WOA）设备。像Surface Pro X、ThinkPad X13s这类产品，凭借出色的移动办公能力，正悄然改变人们对“生产力工具”的定义。

但如果你是个AI工程师，打开终端想跑个Stable Diffusion试试看，很快就会意识到：这套系统里没有CUDA，NVIDIA的生态完全用不上。GPU是Adreno，不是GeForce；驱动走的是DirectX 12，不是cuDNN。传统的PyTorch训练流程在这里寸步难行。

那是不是就彻底没戏了？其实不然。

微软早几年埋下的一颗种子——DirectML，正在这个节点上展现出它的价值。作为一套跨厂商的GPU计算抽象层，它不依赖特定硬件，只要支持DX12 Feature Level 12_1，就能跑张量运算。而社区项目torch-directml正是将PyTorch后端嫁接到DirectML的关键桥梁。

我在一台Lenovo ThinkPad X13s Gen 1（Snapdragon 8cx Gen 3 + Adreno GPU）上完整部署并测试了这一方案，目标很明确：看看现在能不能真正“用起来”，哪怕只是做推理。

实际动手：从零搭建推理环境

这台机器配置如下：

处理器：Qualcomm Snapdragon 8cx Gen 3
内存：16GB LPDDR4x（共享显存）
系统：Windows 11 Pro 23H2 (Build 22631.2506)
图形API：DirectX 12 FL12_1，Adreno驱动版本 30.0.3741.8500

由于PyTorch官方尚未发布原生Arm64构建，我们只能借助Windows对x64应用的模拟层（Arm64EC）来运行标准Python生态。好在从Win11 21H2起，x64模拟已经足够稳定，大多数科学计算包都能正常安装。

安装Python与Git（x64版）

虽然Python官网已提供Arm64原生版本，但大量深度学习库仍依赖x64预编译wheel。为了兼容性，选择下载 Python 3.10.11 x64 installer，安装时务必勾选“Add to PATH”。

验证架构：

python -c "import platform; print(platform.architecture())" # 输出：('64bit', 'WindowsPE')

同样地，Git也选用x64版本以保持一致性。整个软件栈统一在x64模拟环境下运行，反而比混用原生Arm和x64组件更可靠。

使用适配DirectML的WebUI分支

目前最成熟的入口是社区维护的stable-diffusion-webui-directml项目：

git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml.git cd stable-diffusion-webui-directml

该分支的关键改动包括：
- 替换CUDA后端为torch-directml
- 移除对xformers的依赖（暂无Arm兼容版本）
- 自动检测可用的DirectML设备

执行webui-user.bat后，脚本会自动创建虚拟环境并安装核心依赖：

Installing: torch==2.0.0-cp310-cp310-win_amd64.whl (172.3 MB) torchvision==0.15.1 (1.2 MB) torch_directml-0.2.0.dev230426 (8.2 MB)

注意，这里的torch虽然是标准x64版本，但实际GPU调度由torch-directml接管，原始torch仅保留CPU功能。这种“替换后端”的设计巧妙绕过了CUDA绑定问题。

安装完成后日志显示：

Successfully installed ... torch-2.0.0 torch-directml-0.2.0.dev230426 torchvision-0.15.1

一切就绪，准备启动。

模型加载与设备识别

将majicmixRealistic_v7.safetensors放入models/Stable-diffusion/目录后，双击webui-user.bat启动服务。

关键输出如下：

No module 'xformers'. Proceeding without it. Loading weights [7c819b6d13] from ...\majicmixRealistic_v7.safetensors Found DirectML backend: DML (Qualcomm(R) Adreno(TM) 7c Gen 3 GPU) Using device: privateuseone:0 Running on local URL: http://127.0.0.1:7860

这里有几个值得注意的点：

privateuseone:0是PyTorch为非标准后端预留的设备类型，表明当前使用的是自定义加速器。
DirectML成功枚举出Adreno GPU，说明底层通信链路通畅。
缺少xformers不影响基本功能，只是推理速度略有下降。

首次启动耗时约612秒，其中import torch占了14秒左右——这主要是x64模拟带来的指令翻译开销。后续冷启动可缓存部分模块，时间能压缩到3分钟以内。

推理实测：Stable Diffusion表现如何？

小图生成（256×256）

Prompt:

“a beautiful anime girl, blue eyes, long hair, studio lighting”
Sampler: Euler a, Steps: 20

结果：

100%|█████████████████████████████████████████████| 20/20 [01:48<00:00, 5.42s/it]

✅ 成功出图，细节尚可接受。
📊 GPU占用峰值达85%，CPU维持在20%以下，说明计算主力确实在GPU，而非fallback到CPU。

这已经是个积极信号：尽管架构不同，Adreno确实承担了主要负载。

标准尺寸（512×512）

提升分辨率至常用水平：

Resolution: 512×512
Steps: 20
Sampler: DDIM

日志显示：

100%|█████████████████████████████████████████████| 20/20 [07:34<00:00, 22.72s/it] Total progress: 100%|██████████████████████████████| 20/20 [07:41<00:00, 23.07s/it]

⏱ 平均每步23秒，总耗时接近8分钟。

过程中出现一次OOM警告：

DML_STATUS_OUT_OF_MEMORY: Failed to allocate tensor buffer. Falling back to CPU offload for attention blocks...

原因很清楚：Adreno GPU使用共享内存机制，显存上限受制于系统可用RAM。当模型规模增大或分辨率提升时，很容易触发瓶颈。这也解释了为什么batch size > 1几乎不可行。

ResNet50 分类性能基准

为进一步评估通用模型能力，编写了一个简单脚本测试图像分类任务：

import torch import torch_directml from torchvision.models import resnet50 from PIL import Image from torchvision import transforms device = torch_directml.device() model = resnet50(pretrained=True).eval().to(device) transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), ]) img = Image.open("test.jpg") input_tensor = transform(img).unsqueeze(0).to(device) with torch.no_grad(): output = model(input_tensor) print(torch.nn.functional.softmax(output[0], dim=0).cpu().numpy())

测试结果总结：

输入尺寸	单次推理耗时	是否启用GPU
224×224	1.8s	✅ 是
448×448	OOM fallback to CPU	❌ 否

结论很现实：小规模CNN模型可以稳定运行，但一旦输入变大或模型加深，内存就成了硬约束。对于ResNet这类中等复杂度网络，只能勉强支持单图低批量推理。

和CUDA生态的真实差距在哪？

维度	CUDA生态（x86+NVIDIA）	WOA + DirectML
框架支持	官方完整支持	社区实验性支持
安装复杂度	`pip install torch`即可	需x64模拟 + 特定wheel
性能水平	FP16/TF32加速，百TOPS算力	主要FP32，算力约1–2 TOPS
显存管理	独立显存，多卡支持	共享内存，易OOM
分布式训练	支持DDP、FSDP	不支持
开发生态	成熟IDE、调试工具链	基本靠log排查
模型覆盖	几乎全部HuggingFace/OpenAI模型	受限于kernel实现

说白了，现在的torch-directml更适合做边缘侧轻量推理，比如本地AI绘画、语音助手、文档OCR之类的应用场景。指望它替代CUDA搞科研训练？还差得远。

常见坑点与应对策略

1. GroupNorm Kernel缺失

导出ONNX时常遇到报错：

OnnxRuntimeException: [ErrorCode:NotImplemented] Failed to find kernel for GroupNorm(1)

这是ONNX Runtime for WOA的老问题，某些Operator未在DirectML后端实现。

📌 解法建议：
- 直接用PyTorch原生前向传播，避免导出ONNX
- 或改用其他推理引擎（如OpenVINO），可惜目前也不支持WOA

2. x64模拟带来显著性能损耗

实测发现，相同代码在x64 WOA上的运行速度约为原生x86平台的40%~60%，尤其体现在：
- 模块导入延迟
- 张量初始化
- 控制流密集型操作

📌 应对建议：
- 减少动态shape操作
- 缓存已加载模型
- 合并小运算以摊平开销

3. 缺乏自动混合精度（AMP）

torch-directml当前不支持torch.cuda.amp，也无法启用FP16加速。

影响直接体现在两方面：
- 所有计算默认FP32，吞吐量受限
- 内存占用更高，加剧OOM风险

📌 临时对策：
- 手动尝试model.half()（部分层可能失败）
- 部署量化感知训练（QAT）模型

未来可期吗？

尽管体验仍属“能跑”而非“好跑”，但几个趋势值得期待：

微软持续投入DirectML
- 新版DirectML已加入Transformer优化指令集
- 引入MLIR编译器栈提升kernel覆盖率
- 在WinUI 3中集成AI加速控件
Python生态逐步适配Arm64
- Anaconda、Miniforge已发布原生Arm64版本
- NumPy、SciPy等核心库提供Arm64 wheel
- Conda-forge社区推动PyTorch原生移植讨论
云边协同模式兴起
- 本地WOA设备负责数据采集与轻量推理
- 重载模型交由云端CUDA实例处理
- 通过gRPC/TensorRT Server实现无缝衔接

一旦PyTorch推出官方Arm64+DirectML构建，配合WSL进一步融合，WOA完全有可能成为移动AI开发的新入口。

最终评价：现在值不值得试？

答案是：如果你手头正好有一台WOA设备，并且想在旅途中玩一玩AI绘画或做点本地推理实验，这套方案已经具备足够的实践价值。

我已经能在ThinkPad X13s上流畅运行Stable Diffusion WebUI，用Adreno GPU完成512×512级别图像生成（单图<10分钟），也能跑通ResNet50分类任务。虽然无法训练大模型、不支持分布式、调试困难、ONNX兼容性断点频现，但它证明了一件事：即使没有CUDA，AI依然可以在Arm笔记本上运转起来。

这种“可用性”的背后，是微软、高通和开源社区多年积累的结果。也许我们离那个真正的“CUDA时刻”还有距离，但至少，这条路已经通了。