news 2025/12/22 12:30:21

【阿里拥抱开源】Qwen Image团队开源图像分解模型——Qwen-Image-Layered

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【阿里拥抱开源】Qwen Image团队开源图像分解模型——Qwen-Image-Layered

简介

我们很高兴推出Qwen-Image-Layered模型,该模型能够将图像分解为多个RGBA图层。这种分层表示解锁了内在可编辑性:每个图层可以独立操作而不影响其他内容。同时,这种分层表示天然支持高保真基础操作——例如调整大小、重新定位和重新着色。通过将语义或结构组件物理隔离到不同图层中,我们的方法实现了高保真且一致的编辑。

快速开始

  1. 确保您的transformers版本≥4.51.3(支持Qwen2.5-VL)
  2. 安装最新版diffusers
pip install git+https://github.com/huggingface/diffusers pip install python-pptx
fromdiffusersimportQwenImageLayeredPipelineimporttorchfromPILimportImage pipeline=QwenImageLayeredPipeline.from_pretrained("Qwen/Qwen-Image-Layered")pipeline=pipeline.to("cuda",torch.bfloat16)pipeline.set_progress_bar_config(disable=None)image=Image.open("asserts/test_images/1.png").convert("RGBA")inputs={"image":image,"generator":torch.Generator(device='cuda').manual_seed(777),"true_cfg_scale":4.0,"negative_prompt":" ","num_inference_steps":50,"num_images_per_prompt":1,"layers":4,"resolution":640,# Using different bucket (640, 1024) to determine the resolution. For this version, 640 is recommended"cfg_normalize":True,# Whether enable cfg normalization."use_en_prompt":True,# Automatic caption language if user does not provide caption}withtorch.inference_mode():output=pipeline(**inputs)output_image=output.images[0]fori,imageinenumerate(output_image):image.save(f"{i}.png")

案例展示

应用中的分层解构

给定一张图像,Qwen-Image-Layered可将其分解为多个RGBA图层:

分解后,编辑操作仅作用于目标图层,使其在物理层面与其他内容隔离,从而从根本上确保编辑的一致性。

例如,我们可以单独对首层重新着色,同时保持其他所有内容不受影响:

我们也可以将第二层从女孩替换为男孩(目标层使用Qwen-Image-Edit进行编辑):

我们将文本修改为“Qwen-Image”(目标图层使用Qwen-Image-Edit进行编辑):

此外,分层结构天然支持基础操作。例如,我们可以彻底删除不需要的对象。

我们也可以在不失真的情况下调整对象大小:

分层解构后,我们可以在画布上自由移动对象:

灵活可迭代的分层

Qwen-Image-Layered 不局限于固定分层数量。该模型支持可变层数分解,例如根据需求可将图像分解为3层或8层:

此外,分解可以递归应用:任何层级本身都可以进一步分解,从而实现无限分解。

许可协议

Qwen-Image-Layered 采用 Apache 2.0 许可证授权。

引用说明

如果您认为我们的工作对您有所帮助,我们诚挚地建议您引用相关成果。

@misc{yin2025qwenimagelayered, title={Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition}, author={Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu}, year={2025}, eprint={2512.15603}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.15603}, }
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/22 12:29:02

5G网络瓶颈难解?Open-AutoGLM动态调优方案来了,响应速度提升80%

第一章:5G网络瓶颈难解?Open-AutoGLM动态调优方案来了,响应速度提升80%随着5G网络规模部署的加速,高并发、低延迟的应用场景对网络性能提出了更高要求。然而,传统静态资源配置难以应对突发流量与复杂业务负载&#xff…

作者头像 李华
网站建设 2025/12/22 12:27:12

Open-AutoGLM弹窗异常处理全方案(资深架构师亲授修复技巧)

第一章:Open-AutoGLM弹窗关闭失败修复在使用 Open-AutoGLM 框架开发自动化任务时,部分用户反馈在触发特定操作后,系统弹窗无法正常关闭,导致后续流程阻塞。该问题通常出现在异步任务执行完成后的 UI 状态更新阶段,根源…

作者头像 李华
网站建设 2025/12/22 12:26:55

6.2.在汇编层面,数据本身没有类型

文章目录**数据的类型由后续操作符决定****数据的类型由后续操作符决定****ADD指令:同时设置所有相关标志****类型决策点:标志检查指令****情况1:有符号整数类型****情况2:无符号整数类型****完整示例:同一数据&#x…

作者头像 李华
网站建设 2025/12/22 12:24:14

基于YOLOv11的石头剪刀布检测系统(YOLOv11深度学习+YOLO数据集+UI界面+登录注册界面+Python项目源码+模型)

一、项目介绍 本文提出了一种基于深度学习目标检测模型YOLOv11的石头剪刀布手势识别系统,能够实时检测并分类用户手势(石头、剪刀、布)。系统采用YOLOv11模型,结合高质量的自定义YOLO数据集(包含训练集6,455张、验证集…

作者头像 李华
网站建设 2025/12/22 12:24:10

为什么顶级企业都在用Open-AutoGLM做设备协同?真相曝光

第一章:Open-AutoGLM 物联网设备联动控制Open-AutoGLM 是一个基于大语言模型的自动化控制框架,专为物联网(IoT)环境中的设备联动设计。它通过自然语言理解实现设备间的智能协同,支持跨平台、多协议的设备接入与指令编排…

作者头像 李华