89-dify案例分享-免费体验Dify + Qwen-Image-2512 文生图图生图全流程-洪萨配资

1.前言

在AI图像生成领域快速迭代的今天，如何用低成本、低门槛的方式体验最新的文生图、图生图技术，成为了小伙伴们关注的焦点。传统的AI绘画工具要么需要复杂的本地部署、要么需要高昂的API调用费用，普通用户想要"玩转"AI绘画往往望而却步。

好家伙！阿里通义千问团队这2天又放大招了！继8月发布Qwen-Image基础模型后，12月又重磅推出了Qwen-Image-2512文生图模型，同时11月发布的Qwen-Image-Edit-2511图生图模型也正式上线魔搭社区。这两款模型在AI Arena超过1万局的用户盲测中，开源模型表现最优，甚至与多款闭源模型对比中依然展现出显著竞争力！

之前给大家做过一个基于Qwen-Image文生图和图生图的dify插件，今天上午也升级了。另外也使用最新的Qwen-Image-2512验证测试了一下。今天我们就在Dify平台手把手教大家部署这个AI绘画工作流，体验和感受一下这两款最新模型的强大能力。话不多说，我们开始吧！

2.模型介绍

在正式开始工作流制作之前，我们先来了解一下这次更新的两款重磅模型。

Qwen-Image-2512（文生图模型）

Qwen-Image-2512是阿里巴巴通义千问团队于2025年12月发布的最新文生图模型，相较于8月发布的Qwen-Image基础模型，本次聚焦于三大核心能力的飞跃式提升：

✨ 三大核心升级

升级项	能力描述	效果说明
更真实的人物质感	精准刻画皮肤纹理、发丝走向、表情神态	告别塑料脸、模糊五官，还能理解"微微前倾"等语义细节
更细腻的自然纹理	水流、苔藓、动物毛发等细节刻画	金毛犬的绒毛、盘羊的粗硬皮毛，达到"显微镜级别"的细腻度
更复杂的文字渲染	精准排版时间轴、技术图表、多格漫画	图文混合不再是痛点，中文渲染能力业界领先

更真实的人物质感

更细腻的自然纹理

更复杂的文字渲染

🏆 性能表现

在AI Arena超过1万局的用户盲测中，Qwen-Image-2512在开源模型中表现最优，并在与多款闭源模型的对比中依然展现出显著竞争力。

Qwen-Image-Edit-2511（图生图模型）

Qwen-Image-Edit-2511是2025年11月发布的增强版图像编辑模型，是Qwen-Image-Edit-2509的升级版本，专注于高级图像编辑任务。

✨ 核心特点

特性	说明
一致性显著提升	减轻图像漂移，角色身份保持，风格一致性更强
多人一致性增强	两张不同人物图像高保真融合，实现"隔空合照"
LoRA原生集成	照明增强、新视角生成开箱即用，无需额外加载权重
工业设计能力	批量产品设计、材质替换、高保真渲染
几何推理增强	自动生成辅助构造线，适用于建筑设计、工程图纸

🎯 应用场景

创意摄影: 隔空合照、人像创意编辑、多人合成
电商产品: 产品场景变换、材质替换、批量生成
工业设计: 零部件材质调整、设计方案对比
内容创作: 社交媒体、营销物料、风格化处理

版本对比

对比项	旧版Qwen-Image	新版Qwen-Image-2512	提升幅度
人物质感	存在AI感	接近真实摄影	⬆️⬆️ 显著提升
自然纹理	细节一般	显微镜级别	⬆️⬆️ 显著提升
文字渲染	中文较弱	复杂排版支持	⬆️⬆️ 显著提升
图生图	不支持	Qwen-Image-Edit-2511	🆕 全新功能

之前给大家介绍过dify插件开发，其中使用就是阿里Qwen-Image模型。当时实现的是文本生成模型。前段时间我也把这个插件上传到dify插件市场了。

最近有小伙伴给我反馈这个插件不支持图片修改功能，同时官方也发布了最新的Qwen-Image-2512和Qwen-Image-Edit-2511模型。于是我更新了这个插件，目前已经支持最新的文生图和图生图模型了。工作流效果如下：

那么这个工作流是如何制作的呢？下面给大家简单介绍一下。

3.工作流制作

插件安装

制作这个工具流之前我们先去dify插件市场查找这个插件。搜索关键字"Text2image" 新版本插件我已经提交了，注意最新版本是0.0.4

如果没有的可以在文本找一下离线插件。

搜到到这个插件后安装即可。

安装或者更新这插件后，我们可以在魔搭API进行相关授权。

魔搭API配置

去魔搭社区官方网站找到你的API

把这个值复制到刚才的插件api key输入区域

这样我们就完成模型授权。

接下来我们给大家介绍一下工作流详细步骤。

开始节点

这个开始节点有2个部分组成：type类型和 picture 图片

type类型是一个下拉选项，主要是提供用户的文生图、图生图选择项

picture 图片是由单个文件图片构成

以上我们就完成了开始节点的配置。

条件分支

条件分支这里我们可以实现文生图和图生图的判断。我们可以设置如下信息

文生图（Qwen-Image-2512）

这个地方就是我们可以从添加节点-选择我们上面安装好的插件。

我们选中文生图插件。

提示词部分我们直接获取sys.query

模型这里我们选择最新的Qwen-Image-2512（相比旧版Qwen-Image，新版在人物质感、自然纹理、文字渲染方面有显著提升）

图生图（Qwen-Image-Edit-2511）

图生图和上面文生图的操作类似。从添加节点 - 工具选择图生图

它的配置多了一个图像URL选择，模型选择最新的Qwen-Image-Edit-2511（支持一致性保持、多人融合、LoRA原生集成等高级功能）

直接回复

这个直接回复比较简单，就是把文生图和图生视频的信息返回

以上我们就配置了最简单的基于Qwen-Image-2512和Qwen-Image-Edit-2511插件的文生图、图生图功能了。

有的小伙伴说这个文生图的提示词太简单了，能不能给我扩写成一个专业的基于Qwen-Image的提示词呢？当然这个也是可以的。

提示词生成

我这里有一份Qwen-Image提示词指南

核心要点： 抓重点：主体 + 背景 + 细节，不要跑题 补特征：人要写清姿态表情，物要写清材质颜色 写文字：用引号标明，还要写清位置和字体 定风格：纪实/国风/童趣，风格统一更稳定 理空间：左上右下，前后层级要讲明 正向写：别说"不要"，直接说你要什么 去赘余：画面里没的东西，就别写 万能模版骨架： [主体] + [环境/背景] + [构图/镜头] + [风格/质感] + [光线/色调] + [空间/关系] + [需生成文字] 示例：一只黑色猫咪，坐在木质桌上，中景拍摄，写实摄影风格，午后柔光，猫在左下角，"Good Day"文字写在右上角，手写体、浅绿色 小技巧： 把否定词改成正向表达： "不要复杂背景" → "纯色背景" "不要太暗" → "整体偏明亮" "不要拥挤" → "留白充足"

请基于以上内容编写一个编写提示词，使用LangGPT提示词（prompt）语法编写一个Qwen-Image文生图提示词专家。

我们把上面的提示词发给AI让它给我们生成出来

AI很快就帮我生成好提示词了。

LLM大语言模型

我们把上面生成的提示词在上面制作好的工作流增加一个LLM大语言优化后的节点，这样我们简单的提示词就通过Qwen-Image文生图提示词专家润色了生成更加专业的提示词了。

模型这里我们选择魔搭社区提供的免费的qwen3-Coder-30B-A3B-Instruct模型

系统提示词

# Role:Qwen-Image文生图提示词专家 ## Profile-Author:周辉-Version:1.0-Language:中文-Description:专业的Qwen-Image文生图提示词编写专家，擅长根据用户需求生成高质量、结构化的图像生成提示词 ## Skills1.熟练掌握Qwen-Image模型的提示词规则和特点2.能够将用户模糊描述转化为精确的结构化提示词3.擅长运用万能模版骨架进行提示词构建4.精通正向表达技巧，避免否定词使用5.熟悉各种艺术风格和拍摄技法的专业术语 ## Rules1.严格遵循"抓重点、补特征、写文字、定风格、理空间、正向写、去赘余"七大核心要点2.必须使用万能模版骨架：[主体]+[环境/背景]+[构图/镜头]+[风格/质感]+[光线/色调]+[空间/关系]+[需生成文字]3.所有否定表达必须转换为正向表达4.人物描述必须包含姿态和表情5.物体描述必须包含材质和颜色6.文字内容用引号标明，并说明位置和字体7.空间关系要明确（左上右下、前后层级）8.避免描述画面中不存在的元素 ## Workflow1.**需求分析**：理解用户的图像需求，识别关键元素2.**要素提取**：从用户描述中提取主体、背景、风格等核心要素3.**结构构建**：按照万能模版骨架组织提示词结构4.**正向优化**：将所有否定表达转换为正向描述5.**细节补充**：为人物补充姿态表情，为物体补充材质颜色6.**质量检查**：确保提示词符合七大核心要点 ## OutputFormat 【提示词】：[按万能模版骨架生成的完整提示词]【解析说明】：-主体：[说明主体描述要点]-环境背景：[说明背景设定]-构图镜头：[说明拍摄角度和构图]-风格质感：[说明艺术风格]-光线色调：[说明光影效果]-空间关系：[说明元素位置布局]-文字要求：[如有文字需求，说明内容和样式]## Example 用户需求：我想要一张可爱的小女孩在花园里的照片 【提示词】：一位5岁小女孩，扎着双马尾，灿烂笑容，穿粉色连衣裙，站在五彩花园中，中景竖构图，童趣插画风格，温暖金色阳光，女孩居中偏右，花朵环绕四周，"Happy Garden"文字位于左上角，手写体、浅蓝色 【解析说明】：-主体：5岁小女孩，补充了发型、表情、服装等特征-环境背景：五彩花园，明确了背景元素-构图镜头：中景竖构图，适合人物拍摄-风格质感：童趣插画风格，符合主题调性-光线色调：温暖金色阳光，营造愉悦氛围-空间关系：女孩居中偏右，花朵环绕，层次清晰-文字要求：指定了文字内容、位置、字体和颜色 ## Initialization 你好！我是Qwen-Image文生图提示词专家。我将根据Qwen-Image的特点和最佳实践，为您生成高质量的文生图提示词。 请告诉我您想要生成什么样的图像，我会运用专业的结构化方法，为您量身定制精准的提示词。无论是人物、风景、静物还是抽象艺术，我都能帮您转化为Qwen-Image能够完美理解的描述语言。

用户提示词

请根据用户输入的{{#sys.query#}}扩展这个文生图提示词

添加后的LLM大语言模型后，text-to-image这里输入提示词需要修改成从llm大语言模型输入

以上我们就通过LLM大语言模型扩展了文生图提示词。

4.验证及测试

文生图测试

图生图测试

【提示词】：猴子头上带个紧箍咒

Qwen-Image-2512 新特性体验

Qwen-Image-2512在人物质感方面有了显著提升，我们来体验一下：

人物质感测试提示词示例：

一位中国女性大学生，性别女，年龄约20岁左右，超短发发型略带柔和文艺感，发丝自然垂落遮住部分脸颊，整体风格偏向假小子（tomboy）气质。她肤色冷白，五官清秀，表情略显羞涩又带着一丝拽劲，嘴角微微歪起，流露出痞帅又青春的神态。身穿一字领露肩短袖上衣，露出一侧肩膀，身材匀称。画面为近景自拍构图，人物占据主体位置，背景清晰可见宿舍环境。

自然纹理测试提示词示例：

一只花猫的超写实特写肖像，置于柔和自然日光下的户外场景中；毛发细节极为精细 —— 根根分明，橘白黑三色的斑纹自然交错，色泽从暖橘色到纯净白色再到深邃黑色过渡得丝滑流畅，微光在毛尖轻盈跳跃，微风拂过带来轻微蓬松感；底层绒毛柔软浓密，外层护毛修长分明，层次清晰可见；双眼清澈湿润、富有情感，像透亮的琉璃珠子，鼻头微润并带有细腻的高光反光。

新版模型在这些场景下的表现确实令人惊艳，皮肤纹理、发丝走向、动物毛发都能精准刻画到"显微镜级别"。

体验地址

工作流地址：https://dify.duckcloud.fun/chat/rk31bvsH0gWasqDW

备用地址：http://14.103.204.132/chat/rk31bvsH0gWasqDW

插件下载

离线安装包: qwen_text2image_0.0.4.difypkg

通过网盘分享的文件：qwen_text2image_0.0.4.difypkg
链接: https://pan.baidu.com/s/1EK5mJxJAmki3iNLNYwtQOw 提取码: segu

5.总结

今天主要带大家了解并实现了基于Dify工作流构建Qwen-Image-2512文生图、Qwen-Image-Edit-2511图生图功能的完整流程，该流程以阿里巴巴通义千问团队最新发布的"Qwen-Image-2512 + Qwen-Image-Edit-2511"双模型为核心，结合Dify平台灵活的工作流节点配置（如条件分支、插件调用、LLM提示词优化等），形成了一套覆盖文本生成图像、图像编辑修改的全场景AI绘画解决方案。

通过这套实践方案，小伙伴们能够低成本体验Qwen-Image最新版本的强大生成能力——借助魔搭社区提供的免费模型接口和Dify平台的便捷配置（包括插件安装、API授权、工作流搭建），无需复杂的本地部署和高昂的API费用，就能快速实现文生图的精准生成和图生图的风格统一修改（如本次演示的"螃蟹打架+乌龟裁判"案例）。无论是人物质感刻画、自然纹理渲染，还是复杂文字排版、多人场景融合，都能通过Qwen-Image-2512和Qwen-Image-Edit-2511配合LLM提示词优化完成，极大降低了AI图像创作的使用门槛。在实际应用中，该工作流不仅支持Qwen-Image-2512在人物皮肤纹理、发丝走向、动物毛发等细节的"显微镜级别"刻画，还支持Qwen-Image-Edit-2511的一致性保持、多人融合、LoRA原生集成等高级功能，适配性远优于传统的单一文生图方案；特别是通过LLM大语言模型对提示词进行专业化扩写，有效解决了普通用户调用AI绘画时提示词不够专业、生成效果不理想的难题。

同时，方案具备良好的扩展性——小伙伴们可以基于此扩展更多实用场景，如自媒体的创意素材生成、电商产品的场景变换与材质替换、工业设计的批量渲染、建筑设计的效果图展示等，进一步发挥Qwen-Image系列模型在内容创作、电商运营、工业设计、教育培训等领域的应用价值。感兴趣的小伙伴可以按照文中提供的步骤进行实践，根据实际业务需求调整提示词和工作流配置。今天的分享就到这里结束了，我们下一篇文章见。