Qwen-Image-Layered真实体验:图层拆分太丝滑了
2025年12月,香港科技大学与阿里巴巴联合推出图像图层分解模型 Qwen-Image-Layered。该模型能够将单张 RGB 图像端到端地分解为多个语义解耦的 RGBA 图层,从而实现“固有可编辑性”——即每个图层可独立调整颜色、位置、大小等属性而不影响其他内容。这一技术为图像编辑提供了全新的底层范式。
GitHub开源地址:https://github.com/QwenLM/QwenImage-Layered
1. 技术背景与核心价值
传统图像以光栅化形式存储所有视觉信息于单一画布中,导致语义与几何高度耦合。在这种表示方式下进行编辑操作(如移动物体、更换颜色)极易引发非预期副作用:例如人物面部变形、背景错位或边缘伪影。现有主流方法存在明显局限:
- 全局重绘:依赖生成模型重新合成整图,受随机性影响大,难以保证未编辑区域的一致性;
- 掩码引导编辑:虽限定修改范围,但在处理软边界(如毛发、烟雾)或遮挡关系时,分割精度不足,仍会导致结构失真。
专业设计工具(如 Photoshop)采用分层结构(PSD 文件),允许设计师对不同图层独立操作,天然具备高保真编辑能力。然而,从普通 JPG/PNG 图像自动生成高质量、语义清晰的多图层结构一直是行业难题。
Qwen-Image-Layered 正是为解决这一问题而生。它通过深度学习模型直接将输入图像分解为一组 RGBA 图层(含透明度通道),每个图层对应一个语义实体,并支持无损重建原始图像。这种表示方式不仅解锁了像素级精确控制,还使得后续编辑具备“非破坏性”特性。
2. 核心架构与关键技术
2.1 整体流程概述
Qwen-Image-Layered 的工作流程如下:
- 输入一张标准 RGB 图像;
- 模型输出 N 个 RGBA 图层(N 为动态预测值,最多支持 20 层);
- 所有图层按顺序通过 alpha 混合叠加,可完全还原原图;
- 用户可任意修改某一图层的颜色、位置、尺寸或透明度,再重新合成即可获得编辑结果。
整个过程无需手动标注或交互式分割,真正实现了自动化、端到端的图层解耦。
2.2 关键组件解析
RGBA-VAE:统一编码空间构建
传统 VAE 仅适用于 RGB 图像编码。Qwen-Image-Layered 提出RGBA-VAE,扩展卷积核通道数以适配四通道输入/输出(RGB + Alpha)。其关键创新在于:
- 使用特定初始化策略保持原有 RGB 重建性能;
- 引入感知损失(LPIPS)和正则化项优化 latent 空间分布;
- 构建共享 latent 表示空间,使 RGB 输入与 RGBA 输出在同一流形中对齐。
这确保了模型既能高效编码原始图像,又能准确解码出多个透明图层。
VLD-MMDiT:可变长度图层分解架构
图层数量因图像复杂度而异,固定输出结构无法满足需求。为此,团队设计了VLD-MMDiT(Variable-Length Decomposition MMDiT)架构:
- 基于流匹配(Flow Matching)训练目标,提升生成稳定性;
- 采用多模态注意力机制,建模图层内部(intra-layer)与图层之间(inter-layer)的空间与语义关系;
- 引入 Layer3D RoPE 位置编码,在 height × width × layer_num 三维空间中引入相对位置信息;
- 通过可学习索引区分输入图像与各输出图层,支持多任务联合训练。
该架构首次实现了对可变数量图层的直接建模,显著提升了复杂场景下的分解鲁棒性。
多阶段训练策略:渐进式能力迁移
为实现从文本生成到图像驱动分解的能力跃迁,模型采用三阶段训练策略:
| 阶段 | 目标 | 数据类型 | 训练步数 |
|---|---|---|---|
| 1 | 文本 → RGB/RGBA 单图生成 | 含描述的图像数据集 | 500K |
| 2 | 文本 → 多图层合成 | 自建 PSD 数据集 | 400K |
| 3 | 图像 → 多图层分解 | 图像+对应图层 | 400K |
第三阶段通过微调完成“图像反向分解”能力迁移,避免从零训练带来的收敛困难。
2.3 高质量训练数据构建
高质量多层图像数据稀缺是制约该领域发展的核心瓶颈。团队开发了一套完整的PSD 数据处理 pipeline:
- 使用
psd-tools解析真实 Photoshop 文档(.psd); - 过滤异常图层(空图层、样式层、调节层);
- 合并空间上不重叠且语义相关的图层以减少冗余;
- 利用 Qwen2.5-VL 自动生成图像整体描述,构建图文配对数据;
- 最终形成支持文本到多图层生成的大规模训练集。
这套流程有效解决了真实世界图层数据获取难的问题,为模型泛化能力打下坚实基础。
3. 实践部署与运行指南
3.1 环境准备
Qwen-Image-Layered 已集成至 ComfyUI 可视化工作流平台,便于快速部署与交互式使用。
cd /root/ComfyUI/ python main.py --listen 0.0.0.0 --port 8080启动后可通过浏览器访问http://<IP>:8080进入图形界面。
推荐硬件配置:
- GPU:至少 16GB 显存(如 A100/H100)
- 内存:32GB+
- 存储:预留 50GB 以上空间用于缓存模型与中间结果
3.2 使用流程演示
以下是在 ComfyUI 中执行图层分解的基本步骤:
- 加载
Qwen-Image-Layered-Decomposer节点; - 输入待处理图像;
- 设置最大图层数(默认 20);
- 执行推理,输出为图层列表(Layer List);
- 可视化各图层并导出 PNG 序列或 PSD 文件。
# 示例代码片段:批量导出图层 import torch from PIL import Image layers = model.decompose(image_tensor) # 输出: list of RGBA tensors for i, layer in enumerate(layers): img = tensor_to_pil(layer) # 转换为PIL图像 img.save(f"output/layer_{i:02d}.png")提示:建议在 SSD 存储设备上运行以加快 I/O 速度,尤其是在处理高清图像序列时。
4. 性能评测与对比分析
4.1 定量评估指标
在 Crello 和 AIM-500 两个权威测试集上的表现如下:
| 方法 | RGB L1 ↓ | Alpha soft IoU ↑ | PSNR ↑ | SSIM ↑ | rFID ↓ | LPIPS ↓ |
|---|---|---|---|---|---|---|
| VLM Base+Hi-SAM | 0.0721 | 0.7834 | 35.12 | 0.9521 | 8.91 | 0.0312 |
| Yolo Base+Hi-SAM | 0.0689 | 0.7912 | 35.34 | 0.9543 | 8.67 | 0.0298 |
| LayerD | 0.0543 | 0.8321 | 36.78 | 0.9612 | 7.23 | 0.0211 |
| Qwen-Image-Layered | 0.0363 | 0.9160 | 38.8252 | 0.9802 | 5.3132 | 0.0123 |
结果显示,Qwen-Image-Layered 在所有关键指标上均大幅领先,尤其在 alpha 边界精度(soft IoU)和感知一致性(LPIPS)方面优势显著。
4.2 对比实验分析
图像分解质量
- LayerD:常出现修复伪影(hallucination)和语义错分(如将人物头发误分为背景);
- Hi-SAM 组合方案:依赖外部分割模型,对半透明区域(玻璃、火焰)处理不佳;
- Qwen-Image-Layered:图层边界清晰、语义完整,可直接用于下游编辑任务。
编辑一致性测试
在缩放、重定位等基本操作中:
- Qwen-Image-Edit-2509:由于基于扩散重绘,常导致周围像素轻微偏移;
- Qwen-Image-Layered:仅修改目标图层变换矩阵,其余图层保持原样,合成图像与原图差异仅存在于目标区域。
多层合成能力
与 ART 等生成式方法相比:
- ART 常遗漏次要图层(如阴影、高光);
- Qwen-Image-Layered 生成图层更完整,语义连贯性强,适合构建可编辑资产库。
4.3 消融实验验证
| 组件组合 | RGB L1 | Alpha IoU |
|---|---|---|
| 全模型 | 0.0363 | 0.9160 |
| - RGBA-VAE | 0.0512 | 0.8431 |
| - VLD-MMDiT | 0.0487 | 0.8523 |
| - 多阶段训练 | 0.0465 | 0.8610 |
可见三大组件缺一不可,其中多阶段训练对最终性能提升贡献最大(约 27% 相对改进)。
5. 应用场景与工程建议
5.1 典型应用场景
- 广告设计自动化:快速提取产品主体并替换背景、调整布局;
- 电商图像处理:一键分离商品图中的文字贴纸、标签元素;
- 影视后期预处理:为抠像、调色提供高质量图层基础;
- AIGC 内容可控编辑:结合文生图模型生成初始图像后,进行精细化图层调控;
- 数字资产管理:将静态图像转换为可长期复用的“智能图层包”。
5.2 工程优化建议
显存优化:
- 对 1024×1024 以上图像启用
tile decode分块解码; - 使用 FP16 推理降低内存占用。
- 对 1024×1024 以上图像启用
速度提升:
- 固定图层数上限为 10~15,避免过度分解;
- 启用 TensorRT 加速推理核心模块。
后处理增强:
- 对输出 alpha 通道应用边缘细化算法(如 guided filter);
- 添加图层语义标签分类器辅助用户识别内容。
集成建议:
- 可封装为 REST API 服务,供前端设计工具调用;
- 支持导出为 PSD、XD 或 Figma 兼容格式,无缝接入现有工作流。
6. 总结
Qwen-Image-Layered 通过创新性的 RGBA-VAE、VLD-MMDiT 架构与多阶段训练策略,成功实现了从单张 RGB 图像到语义解耦 RGBA 图层的端到端分解。其实验表现证明,在图像分解质量、编辑一致性和重建保真度方面全面超越现有方法,标志着基于图层的“固有可编辑性”正式成为现实。
该技术不仅填补了高质量多层图像数据缺失的空白,更为图像编辑领域建立了新的技术范式。未来有望扩展至视频帧序列分解、3D 场景图层化表达等方向,推动视觉内容创作向更高自由度、更强可控性演进。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。