news 2026/3/4 18:39:32

Qwen-Image-Layered更新了!支持更多层数灵活拆分

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen-Image-Layered更新了!支持更多层数灵活拆分

Qwen-Image-Layered更新了!支持更多层数灵活拆分

1. 简介

最近,Qwen-Image-Layered 模型迎来一次重要升级——现在支持更灵活的图层数量设置,能够根据图像复杂度和编辑需求动态调整分解层数。这项更新让图像的“可编辑性”迈上新台阶。

你有没有遇到过这样的问题:想修改一张图片里的某个元素,比如换个背景、调个颜色,结果一动就糊了?传统图像编辑工具往往只能做全局调整,或者依赖手动抠图,费时又容易失真。而 Qwen-Image-Layered 的核心思路很不一样:它把一张图像自动拆解成多个独立的RGBA 图层,每个图层包含一个语义完整的视觉元素(比如人物、文字、背景等),彼此互不干扰。

这意味着什么?意味着你可以像操作设计软件中的图层一样,单独对某一层进行重新着色、缩放、移动、替换甚至删除,而其他内容完全不受影响。这种“物理隔离”的编辑方式,从根本上避免了修改带来的画面崩坏问题。

更重要的是,这次更新后,模型不再局限于固定的图层数量。无论是简单的3层结构,还是复杂的8层甚至更多,系统都能智能适配,真正实现了“按需拆分”。

如果你正在寻找一种高保真、低损耗的图像编辑方案,那 Qwen-Image-Layered 绝对值得一看。

2. 快速上手:从零运行 Qwen-Image-Layered

2.1 环境准备

要运行 Qwen-Image-Layered,首先确保你的环境满足以下条件:

  • Python ≥ 3.9
  • PyTorch ≥ 2.0
  • transformers ≥ 4.51.3(必须支持 Qwen2.5-VL)
  • diffusers 最新版(需从 GitHub 安装)

安装命令如下:

pip install git+https://github.com/huggingface/diffusers pip install python-pptx

提示:建议在有 GPU 支持的环境中运行,推理速度会显著提升。使用--device cuda可启用 GPU 加速。

2.2 启动 ComfyUI 接口

该镜像默认集成了 ComfyUI 可视化工作流界面,启动非常简单:

cd /root/ComfyUI/ python main.py --listen 0.0.0.0 --port 8080

执行后,打开浏览器访问http://<服务器IP>:8080即可进入图形化操作界面。对于不熟悉代码的用户来说,这是一个非常友好的选择。

2.3 使用 Python 脚本调用模型

如果你更喜欢直接写代码,也可以通过diffusers库快速调用模型。以下是完整示例:

from diffusers import QwenImageLayeredPipeline import torch from PIL import Image # 加载模型 pipeline = QwenImageLayeredPipeline.from_pretrained("Qwen/Qwen-Image-Layered") pipeline = pipeline.to("cuda", torch.bfloat16) pipeline.set_progress_bar_config(disable=None) # 读取输入图像 image = Image.open("asserts/test_images/1.png").convert("RGBA") # 设置参数 inputs = { "image": image, "generator": torch.Generator(device='cuda').manual_seed(777), "true_cfg_scale": 4.0, "negative_prompt": " ", "num_inference_steps": 50, "num_images_per_prompt": 1, "layers": 6, # 新增功能:可自定义图层数量(如3、4、6、8等) "resolution": 640, # 推荐使用640分辨率桶(bucket)以获得最佳效果 "cfg_normalize": True, # 是否开启CFG归一化 "use_en_prompt": True, # 若未提供描述文本,自动生英文提示词 } # 执行推理 with torch.inference_mode(): output = pipeline(**inputs) output_images = output.images[0] # 获取所有图层 # 保存每一层 for i, layer_image in enumerate(output_images): layer_image.save(f"layer_{i}.png")

运行完成后,你会得到一组 PNG 文件,每个文件对应一个透明通道完整的 RGBA 图层。这些图层可以直接导入 Photoshop、Figma 或其他设计工具进行后续编辑。

3. 实际能力展示:看看它能做什么

3.1 分层解构:让图像“活”起来

给定一张普通图像,Qwen-Image-Layered 能自动将其分解为多个语义清晰的图层。例如下图中的人物、文字、装饰图案都被成功分离:

每个图层都是独立的 PNG 文件,带有完整的 Alpha 通道信息。这意味着你可以随时关闭某个图层查看影响范围,也可以单独导出某一元素用于新设计。

3.2 独立编辑:只改你想改的部分

由于各图层物理隔离,编辑操作不会波及其他内容。这是传统方法难以实现的。

示例1:重新着色第一层

我们仅对最上层的红色装饰条进行颜色替换,将其改为蓝色。整个过程中,人物、文字和其他背景元素完全保持不变:

示例2:替换人物性别

将第二层中的女孩替换为男孩。这里可以结合 Qwen-Image-Edit 模型完成局部重绘任务,只需指定目标图层即可精准修改:

示例3:修改文字内容

将“Qwen-VL”改为“Qwen-Image”。系统识别出文字位于单独图层后,即可无损替换,字体样式和投影效果全部保留:

3.3 基础操作:天然支持高保真变换

分层结构天生适合各种基础图像操作,无需担心边缘模糊或结构扭曲。

删除对象

直接移除不需要的图层即可彻底清除某个元素。比如删掉右下角的水印图标,画面干净自然:

自由缩放

对某一图层单独放大或缩小,不会拉伸整体图像。即使大幅调整尺寸,细节依然清晰锐利:

移动位置

拖动图层可在画布内任意重新定位元素。比如把人物往左移两格,构图更平衡:

4. 高级特性:灵活且可迭代的分层机制

4.1 支持可变图层数量

过去很多图层分解模型只能输出固定数量的图层(如4层),限制了适用场景。而本次更新后,Qwen-Image-Layered 支持动态设置 layers 参数,可根据图像复杂度灵活配置。

图像类型推荐图层数
简单海报3~4 层
复杂电商图6~8 层
多元素合成图8+ 层

例如,设置layers=8后,原本合并在一起的多个小元素也能被进一步拆分,提升编辑粒度:

4.2 支持递归分解:无限细化可能

更强大的是,Qwen-Image-Layered 支持递归式分解。也就是说,任何一个已被提取出的图层,本身还可以再次作为输入,继续拆分成更细的子图层。

举个例子:一张包含多人合影的照片,第一次分解可能将每个人作为一个整体图层;然后你可以选中其中一个人的图层,再次运行模型,将其面部、衣服、配饰等进一步分离。

这种“层层深入”的能力,使得即使是高度复杂的图像,也能逐步拆解到理想的编辑精度:

这为专业设计师、广告制作团队、AIGC 内容创作者提供了前所未有的非破坏性编辑体验。

5. 许可与引用

5.1 开源许可协议

Qwen-Image-Layered 已在 Apache 2.0 开源许可证下发布,允许个人和企业免费使用、修改和分发,包括商业用途。这对于希望将其集成到产品中的开发者来说是一个重大利好。

5.2 如何引用该项目

如果你在研究或项目中使用了 Qwen-Image-Layered,欢迎引用以下 BibTeX 条目:

@misc{yin2025qwenimagelayered, title={Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition}, author={Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu}, year={2025}, eprint={2512.15603}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.15603}, }

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/4 11:29:56

NewBie-image-Exp0.1电商应用案例:动漫商品图批量生成教程

NewBie-image-Exp0.1电商应用案例&#xff1a;动漫商品图批量生成教程 你是不是也遇到过这样的问题&#xff1a;一家主打二次元周边的电商小店&#xff0c;每周要上新20款手办、挂画、亚克力立牌&#xff0c;每款都需要3-5张不同角度、统一风格的商品展示图&#xff1f;找画师…

作者头像 李华
网站建设 2026/3/4 13:40:48

麦橘超然自动化流水线:结合CI/CD实现持续生成服务

麦橘超然自动化流水线&#xff1a;结合CI/CD实现持续生成服务 1. 什么是麦橘超然&#xff1f;一个为中低显存设备量身打造的Flux图像生成控制台 你是否试过在一台只有12GB显存的RTX 4080上跑Flux.1模型&#xff0c;结果刚加载完模型就提示“CUDA out of memory”&#xff1f;…

作者头像 李华
网站建设 2026/3/1 20:32:23

Qwen3-4B-Instruct保姆级教程:新手也能10分钟完成部署

Qwen3-4B-Instruct保姆级教程&#xff1a;新手也能10分钟完成部署 你是不是也遇到过这样的情况&#xff1a;看到一个很火的大模型&#xff0c;想试试效果&#xff0c;结果点开文档——满屏的conda、pip、transformers、vLLM、CUDA版本对照表……还没开始就放弃了&#xff1f;别…

作者头像 李华
网站建设 2026/3/1 22:14:24

unet人像卡通化自动化脚本:run.sh指令深度解析

unet人像卡通化自动化脚本&#xff1a;run.sh指令深度解析 1. 功能概述 本工具基于阿里达摩院 ModelScope 的 DCT-Net 模型&#xff0c;支持将真人照片转换为卡通风格。项目由“科哥”构建并维护&#xff0c;命名为 unet person image cartoon compound&#xff0c;旨在提供一…

作者头像 李华
网站建设 2026/3/3 0:36:35

GPEN训练流程详解:512x512分辨率数据准备实战

GPEN训练流程详解&#xff1a;512x512分辨率数据准备实战 你是否遇到过这样的问题&#xff1a;想复现GPEN人像修复模型的训练过程&#xff0c;却卡在第一步——数据准备&#xff1f;明明下载了FFHQ数据集&#xff0c;但发现原始高清图和对应的低质图根本对不上号&#xff1b;尝…

作者头像 李华
网站建设 2026/3/4 8:17:08

Open-AutoGLM医疗辅助案例:预约挂号流程自动化实战

Open-AutoGLM医疗辅助案例&#xff1a;预约挂号流程自动化实战 1. 为什么需要手机端AI Agent来解决挂号难题&#xff1f; 你有没有经历过这样的清晨&#xff1a;7点准时蹲守医院公众号&#xff0c;手指悬在“预约”按钮上&#xff0c;倒数3、2、1——页面卡死、验证码失效、号…

作者头像 李华