news 2026/6/9 22:52:39

Skywork UniPic:新一代多模态模型,集图像理解、生成和编辑于一体,效率极高

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Skywork UniPic:新一代多模态模型,集图像理解、生成和编辑于一体,效率极高

概述

本研究提出的 Skywork UniPic 是一个 1.5B 参数的自回归模型,它将图像理解、从文本生成图像和图像编辑集成在一个架构中。

传统上,许多多模态人工智能在单独的模型和适配器中处理理解、生成和编辑,导致性能分散和推理成本增加。
UniPic 采用了 “解耦编码策略”,在一个共同的 LLM 骨干上连接了以生成为重点的屏蔽自回归(MAR)编码器和以理解为重点的 SigLIP2 编码器,从而实现了特定任务优化和相互知识转移。此外,该系统还结合了 1 亿规模的高质量数据集、带有奖励模型的数据质量管理以及从 256 像素到 1024 像素的渐进式分辨率扩展学习,从而在 RTX 4090 等常见 GPU 环境中实现高清图像生成。

评估结果表明,GenEval 0.86、DPG-Bench 85.5 和 GEdit-Bench 5.83 等模型具有很高的性能,与同等规模和尺度的现有集成模型相比具有很强的竞争力。

建议的方法

Skywork UniPic 的主要特点是采用 “解耦编码策略”,将图像理解、生成和编辑高效集成到一个模型中。

在生成任务中,使用 MAR 编码器-解码器支持高分辨率合成,同时保持像素级保真度。

另一方面,理解任务使用 SigLIP2 编码器进行语义丰富的特征提取。

两者通过独立的 MLP 投影层连接到 15 亿参数的 Qwen2.5 主干网,从而通过统一的自回归处理实现任务间的知识共享。

学习以四级课程结构进行,从 MAR 预学习、MAR-LLM 对齐、任务集成优化到利用奖励模型的 SFT。
数据质量保证使用在 GRPO 和 Skywork-EditReward 上训练的 Skywork-ImgReward(专门保证编辑准确性),以建立可用于各种编辑和生成场景的数据集,同时消除低质量样本。

实验

实验在三个领域进行:图像生成、图像编辑和图像理解。

在图像生成任务中,使用了 GenEval(建设性理解)和 DPG-Bench(长指令跟踪),UniPic 在 GenEval 中的准确率为 0.86,在 DPG-Bench 中的准确率为 85.5。
在单个对象生成、多个对象组合和位置理解方面,UniPic 的准确率尤其高。

在编辑任务方面,UniPic 在 GEdit-Bench 和 ImgEdit-Bench 分别取得了 5.83 和 3.49 的高分,在行为编辑和风格修改等特定类别中表现出了优势。
比较对象包括 OmniGen2 和 BAGEL 等集成模型,以及 ICEdit 和 Step1X-Edit 等专业编辑模型。

此外,UniPic 还能在 RTX 4090 上生成 1024 x 1024 分辨率的图像,GPU 内存不足 15 GB,这证明了它作为集成式多模态基础设施模型的实用性,在性能、效率和多功能性方面取得了良好的平衡。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 19:33:16

多路召回(Multi-Route Retrieval)

核心原理与技术架构多路召回通过并行执行多个检索策略,覆盖不同语义维度(关键词、语义、多模态等),再通过融合算法(如 RRF、加权排名)生成最终结果,解决单一检索的 “漏检” 和 “错配” 问题。…

作者头像 李华
网站建设 2026/6/9 21:54:30

开发者必看:EmotiVoice源码结构与扩展方法

EmotiVoice 源码结构与扩展方法深度解析 在语音交互日益普及的今天,用户对“机器说话”的期待早已超越了清晰可懂的基本要求。我们希望语音助手能带着关切的语气提醒我们吃药,游戏中的NPC能在受伤时发出真实的痛苦呻吟,有声书朗读者能在紧张情…

作者头像 李华
网站建设 2026/6/9 1:58:26

EmotiVoice语音合成失败常见报错及解决方案大全

EmotiVoice语音合成失败常见报错及解决方案大全 在构建智能语音助手、虚拟偶像或自动化有声内容生成系统时,开发者越来越倾向于使用高表现力的文本转语音(TTS)模型。传统的TTS方案虽然稳定,但语音生硬、缺乏情感变化,难…

作者头像 李华
网站建设 2026/6/9 0:39:05

EmotiVoice语音合成时间戳功能:精确对齐字幕与音频

EmotiVoice语音合成时间戳功能:精确对齐字幕与音频 在视频内容爆炸式增长的今天,自动字幕生成、虚拟角色口型同步和情感化语音交互已不再是边缘需求,而是智能媒体系统的核心能力。然而,传统文本转语音(TTS)…

作者头像 李华
网站建设 2026/6/8 19:48:11

Web3 项目外包开发的管理

在区块链和 Web3 领域,外包开发不仅仅是“写代码”,更是一场关于资产安全、去中心化逻辑和链上法律合规的深度博弈。由于区块链的不可篡改性,一旦代码上线发现漏洞,损失往往是灾难性的。以下是针对 Web3 外包开发的核心管理指南&a…

作者头像 李华