news 2026/6/9 15:07:17

GPT-4o 级图像生成的民主化:Janus-4o 和 ShareGPT-4o-Image 挑战

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPT-4o 级图像生成的民主化:Janus-4o 和 ShareGPT-4o-Image 挑战

概述

本文构建了一个名为 "ShareGPT-4o-Image "的新的大规模合成数据集,目的是将 GPT-4o 的高级图像生成功能转移到一个开源的多模态模型中。此外,还提出了一个使用该模型的多模态大规模语言模型 “Janus-4o”。

ShareGPT-4o-Image 由 45,000 个文本的图像生成数据和 46,000 个使用图像和文本的图像转换数据组成,这两个数据都是使用 GPT-4o-Image 生成的高质量样本。根据这些数据对现有的 Janus-Pro 模型进行微调后,Janus-4o 不仅能从文本生成图像,还能编辑图像(从文本+图像输入生成图像)。值得注意的是,只需 91K 个样本和 6 个小时的训练,Janus-4o 的性能就能超越以前的模型。

这项研究为高性能图像生成技术的民主化做出了贡献,是加速开放式多模态研究的重要一步。

建议的方法

ShareGPT-4o-Image 是一个合成数据集,旨在模仿和提炼 GPT-4o-Image 的功能。该数据通过两种生成方案创建。

一种是 “提示驱动”,即定义属性(如对象、背景、风格),LLM 据此生成自然语言提示,GPT-4o-Image 据此输出图像。另一种是 “图像驱动”,即 LLM 根据现有图像生成详细描述,并将其与图像配对以创建数据。图像编辑数据由原始图像、编辑说明和编辑图像三部分组成,基于 14 个不同的任务,涵盖了大量的样式转换和元素添加。

然后,利用该数据集对现有的 Janus-Pro 模型进行微调,从而开发出 Janus-4o,该模型的结构既适用于纯文本输入,也适用于文本+图像组合输入,旨在为每种输入提供适当的表征学习。

实验

Janus-4o 的性能在两个任务中进行了评估:从文本生成图像和图像编辑。

在从文本生成图像方面,使用了 GenEval 和 DPG-Bench 基准来衡量构图一致性和视觉保真度。结果显示,与 Janus-Pro 相比,GenEval 的性能提高了 4 个百分点,DPG-Bench 的性能提高了 1.6 个百分点。

同时,ImgEdit-Bench 基准对图像编辑能力进行了评估,该基准在移动变化和风格转换等详细编辑项目上获得了高分。尤其值得注意的是,在使用少量训练数据(91K)的情况下,其性能与其他使用超过 400 万数据的模型相当,甚至超过了它们。

此外,人类评估实验清楚地表明,在生成图像的视觉吸引力和教学保真度方面,Janus-4o 明显优于 Janus-Pro 和 UltraEdit。这证明了 ShareGPT-4o-Image 的高数据质量及其有效性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/8 8:08:51

SeedVR2-7B:如何用单步推理技术实现视频修复的4倍效率提升?

SeedVR2-7B:如何用单步推理技术实现视频修复的4倍效率提升? 【免费下载链接】SeedVR2-7B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/SeedVR2-7B 在当今视频内容爆炸式增长的时代,传统视频修复技术面临着前所未有的…

作者头像 李华
网站建设 2026/6/8 13:07:34

LightVAE终极指南:如何在消费级硬件上实现高质量视频生成

LightVAE终极指南:如何在消费级硬件上实现高质量视频生成 【免费下载链接】Autoencoders 项目地址: https://ai.gitcode.com/hf_mirrors/lightx2v/Autoencoders 2025年AI视频生成技术正经历前所未有的变革,而LightVAE系列模型通过架构创新与知识…

作者头像 李华
网站建设 2026/6/3 5:50:47

AI 3D建模革命:从零开始掌握腾讯混元3D-1.0的创作指南

在数字内容创作领域,AI驱动的3D建模工具正以前所未有的速度改变着游戏规则。腾讯开源的混元3D-1.0作为一个强大的AI 3D建模工具,让快速生成高质量的3D内容变得触手可及。无论你是游戏开发者、电商运营还是教育工作者,这款开源工具都能为你带来…

作者头像 李华
网站建设 2026/6/9 7:10:28

探索PSASP四机二区域含新能源系统的奇妙之旅

PSASP四机二区域,4机2区系统,在原有系统的基础上加入了光伏电站和风电场,系统可以稳定运行。 已在系统内设置渐变风,光照强度等扰动,故障设置有短路,断线故障。最近在捣鼓PSASP的四机二区域系统&#xff0c…

作者头像 李华
网站建设 2026/6/9 11:45:15

Linux系统完美运行Windows程序:跨平台兼容终极解决方案

还在为Linux环境下无法使用Windows专属软件而烦恼吗?通过Wine技术,你可以直接在Linux系统中流畅运行各类Windows程序,无需安装虚拟机或双系统,实现真正的跨平台运行体验。本文将为你揭秘从零开始搭建完整Windows程序兼容环境的完整…

作者头像 李华
网站建设 2026/6/5 3:44:04

MYSQL-窗口函数学习总结

窗口函数不是将数据汇总成单个结果,而是为每一行数据都返回一个结果。完整的窗口函数的定义:window_function over(partition by...-- 分区参数 order by... -- 排序参数 frame_clause -- 窗口大小 );以下代码所用数据集在之前的文章中可以找到。select…

作者头像 李华