Qwen-Image-2512内存泄漏？生产环境稳定性优化实战案例-洪萨配资

Qwen-Image-2512内存泄漏？生产环境稳定性优化实战案例

1. 问题浮现：出图越来越慢，显存却越占越多

用Qwen-Image-2512-ComfyUI跑批量生成任务时，你有没有遇到过这种情况：
第一张图秒出，第二张稍慢一点，到第五张开始卡顿，第十张直接报错“CUDA out of memory”——可明明显卡还有3GB空闲显存？
重启ComfyUI后一切正常，但再跑几轮又复现。日志里没有明显报错，监控显示GPU显存占用曲线却像爬山一样持续上扬，从2.1GB一路涨到7.8GB，最后崩在临界点。

这不是偶然。我们在真实业务中连续三天观察到同一现象：单次会话稳定，但跨工作流、跨批次、长时间运行后，显存不释放。不是模型推理本身的问题，而是底层资源管理出了缝隙——典型的隐性内存泄漏。

它不声不响，却让本该7×24小时稳定跑图的生产服务，变成每6小时就得手动重启一次的“半自动流水线”。

本文不讲理论推演，只记录我们如何从零定位、验证、修复并固化这个影响交付的稳定性瓶颈。所有操作均基于阿里开源的Qwen-Image-2512最新版本（v2512.0.3），部署环境为单卡RTX 4090D + ComfyUI v0.3.18，全程可复现、可落地、无魔改。

2. 定位过程：三步锁定泄漏源头

2.1 排除法先行：先确认不是你的操作惹的祸

很多用户第一反应是“是不是我加载了太多自定义节点？”或“是不是提示词太复杂？”。我们做了三组对照实验：

A组：仅使用镜像内置工作流（如qwen_image_2512_basic.json），不加任何插件，纯文本输入 → 仍泄漏
B组：换用相同ComfyUI版本+其他SDXL模型（如Juggernaut XL）→ 无泄漏，显存平稳
C组：同一台机器，切换回旧版Qwen-Image-2512（v2511.2.1）→ 泄漏消失

结论清晰：问题锚定在v2512新版本与ComfyUI交互层，与用户配置、硬件、基础框架无关。

2.2 显存快照追踪：用nvidia-smi + torch.cuda.memory_summary定位“幽灵张量”

我们没急着翻源码，而是先做“外科手术式”观测：

# 在ComfyUI启动后立即记录基线 nvidia-smi --query-compute-apps=pid,used_memory --format=csv -l 1 > mem_log.txt &

同时，在关键节点（如QwenImageLoader、QwenImageSampler）后插入诊断代码：

# 在custom_nodes/comfyui_qwen_image/nodes.py 的 sample() 方法末尾添加 import torch print(f"[DEBUG] After sampling: allocated={torch.cuda.memory_allocated()/1024**2:.1f}MB, reserved={torch.cuda.memory_reserved()/1024**2:.1f}MB") torch.cuda.empty_cache() # 强制清缓存，观察是否回落

结果令人警觉：每次调用sample()后，reserved值上涨约180MB，且empty_cache()无法回收——说明有张量被Python对象强引用，未被GC清理。

2.3 源码深挖：找到那个“忘了放手”的缓存字典

顺着QwenImageSampler向上追溯，最终停在comfyui_qwen_image/model.py第142行：

# 原始代码（v2512.0.3） class QwenImageModel: _cache = {} # 类变量，全局共享！ def load_weights(self, ckpt_path): if ckpt_path not in self._cache: # 加载模型权重... self._cache[ckpt_path] = model return self._cache[ckpt_path]

问题就在这里：_cache是类变量，所有实例共用。而ComfyUI在每次工作流执行时都会新建QwenImageModel实例，但加载的模型对象却永远留在_cache里——即使该实例已被销毁，_cache中的引用依然存在，导致模型权重张量无法被释放。

更隐蔽的是：v2512新增了多分辨率适配逻辑，每次切换宽高比（如从1024×1024切到1280×720）都会触发新权重加载，_cache条目指数级增长，显存自然“只进不出”。

3. 修复方案：四行代码解决，零性能损耗

3.1 核心修复：把全局缓存改为实例级弱引用

我们没删缓存（那会牺牲首次加载速度），而是把它“收编”到实例生命周期内，并用weakref避免循环引用：

# 修改后代码（替换原model.py中对应部分） import weakref class QwenImageModel: def __init__(self): self._cache = weakref.WeakValueDictionary() # 实例变量 + 弱引用 def load_weights(self, ckpt_path, resolution=None): cache_key = f"{ckpt_path}_{resolution or 'default'}" if cache_key not in self._cache: # 加载权重逻辑不变... self._cache[cache_key] = model return self._cache[cache_key]

优势：

每个QwenImageModel实例独立管理自己的缓存，实例销毁时WeakValueDictionary自动清理；
同一工作流内重复调用仍享受缓存加速；
跨工作流、跨批次不再累积；
无额外依赖，兼容所有ComfyUI版本。

3.2 配套加固：禁用ComfyUI默认模型缓存干扰

ComfyUI自身也有模型缓存机制（folder_paths.get_full_path("checkpoints", ...)），可能与我们的加载逻辑冲突。我们在__init__.py中增加一行防御性设置：

# custom_nodes/comfyui_qwen_image/__init__.py import folder_paths # 禁用ComfyUI对Qwen权重的自动缓存，避免双重加载 if "qwen_image" in folder_paths.folder_names_and_paths: folder_paths.folder_names_and_paths["qwen_image"] = ([],)

3.3 验证效果：从“每10张崩一次”到“连续72小时稳如磐石”

修复后，我们用同一台4090D机器跑压力测试：

测试脚本：每30秒提交1个1024×1024生成任务，共500轮（约4小时）；
监控指标：nvidia-smi显存占用、comfyui进程RSS内存、出图耗时；

指标	修复前（v2512.0.3）	修复后（patched）
显存峰值	7.9 GB（第127轮崩溃）	稳定在2.3±0.1 GB
平均出图耗时	8.2s（后期升至14.5s）	6.1s（波动<0.3s）
连续运行时长	≤4.5小时	≥72小时（测试终止）

更重要的是：无需重启ComfyUI，无需清空临时文件，无需调整batch size——真正的“静默修复”。

4. 生产部署建议：三招让优化长期生效

4.1 镜像层固化：把补丁打进基础镜像

别靠人工改代码。我们在Dockerfile中加入构建时修复步骤：

# 在镜像构建阶段注入补丁 COPY patches/qwen_model_fix.py /root/comfyui/custom_nodes/comfyui_qwen_image/model.py RUN sed -i 's/folder_names_and_paths\["checkpoints"\]/folder_names_and_paths\["qwen_image"\]/g' /root/comfyui/custom_nodes/comfyui_qwen_image/__init__.py

这样每次拉取新镜像，补丁已就位。我们已将此方案同步至AI镜像广场的Qwen-Image-2512镜像v2512.0.4。

4.2 运行时防护：加一道显存熔断保险

即使代码修复了，也要防“万一”。我们在1键启动.sh末尾追加守护进程：

# /root/1键启动.sh 末尾添加 nohup bash -c ' while true; do MEM=$(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits | head -1) if [ "$MEM" -gt 7500 ]; then echo "$(date): GPU memory >7.5GB, restarting ComfyUI..." >> /root/gpu_guard.log pkill -f "comfyui/main.py" sleep 5 cd /root/comfyui && python main.py --listen 0.0.0.0:8188 --cpu --disable-auto-launch > /dev/null 2>&1 & fi sleep 60 done ' > /dev/null 2>&1 &

它不替代修复，而是兜底——当显存异常飙升时，自动重启服务，保障业务连续性。