系列篇章💥
| No. | 文章 |
|---|---|
| 1 | 【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath:如何革新癌症病理诊断技术 |
| 2 | 【AI大模型前沿】清华大学 CLAMP-3:多模态技术引领音乐检索新潮流 |
| 3 | 【AI大模型前沿】浙大携手阿里推出HealthGPT:医学视觉语言大模型助力智能医疗新突破 |
| 4 | 【AI大模型前沿】阿里 QwQ-32B:320 亿参数推理大模型,性能比肩 DeepSeek-R1,免费开源 |
| 5 | 【AI大模型前沿】TRELLIS:微软、清华、中科大联合推出的高质量3D生成模型 |
| 6 | 【AI大模型前沿】Migician:清华、北大、华科联手打造的多图像定位大模型,一键解决安防监控与自动驾驶难题 |
| 7 | 【AI大模型前沿】DeepSeek-V3-0324:AI 模型的全面升级与技术突破 |
| 8 | 【AI大模型前沿】BioMedGPT-R1:清华联合水木分子打造的多模态生物医药大模型,开启智能研发新纪元 |
| 9 | 【AI大模型前沿】DiffRhythm:西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型 |
| 10 | 【AI大模型前沿】R1-Omni:阿里开源全模态情感识别与强化学习的创新结合 |
| 11 | 【AI大模型前沿】Qwen2.5-Omni:阿里巴巴的多模态大模型,实现看、听、说、写一体化 |
| 12 | 【AI大模型前沿】SmolDocling:256M参数的轻量级多模态文档处理利器,10分钟搞定百页PDF |
| 13 | 【AI大模型前沿】Stable Virtual Camera:Stability AI 推出的2D图像转3D视频模型,一键生成沉浸式视频 |
| 14 | 【AI大模型前沿】阿里 Qwen3 震撼开源,模型新王诞生,开启全球大模型新纪元 |
| 15 | 【AI大模型前沿】InternVL:OpenGVLab开源多模态大模型,解锁视觉问答与多语言翻译的全能应用图鉴 |
| 16 | 【AI大模型前沿】Fin-R1:上海财经大学联合财跃星辰推出的金融推理大模型,凭7B参数拿下评测第二,离行业第一仅差3分 |
| 17 | 【AI大模型前沿】Med-R1:基于强化学习的医疗视觉语言模型,突破跨模态医学推理的普适性 |
| 18 | 【AI大模型前沿】Baichuan-M1-14B:百川智能推出专为医疗优化的开源大语言模型 |
| 19 | 【AI大模型前沿】一键生成宫崎骏动画风,EasyControl Ghibli 让照片秒变吉卜力艺术品 |
| 20 | 【AI大模型前沿】TxGemma:谷歌推出的高效药物研发大模型,临床试验预测准确率超90% |
| 21 | 【AI大模型前沿】F5R-TTS:腾讯推出TTS领域的新王者,又快又准又自然,零样本语音克隆新高度 |
| 22 | 【AI大模型前沿】MiniMind-V:低成本打造超小多模态视觉语言模型(仅需1.3元人民币和1小时) |
| 23 | 【AI大模型前沿】MoCha:端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作 |
| 24 | 【AI大模型前沿】HuatuoGPT-o1-7B:中英文双语医学推理,打破语言障碍的AI大模型 |
| 25 | 【AI大模型前沿】MedReason:大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家 |
| 26 | 【AI大模型前沿】SkyReels-V2:昆仑万维开源的无限时长电影生成模型,开启视频生成新纪元 |
| 27 | 【AI大模型前沿】Dia:Nari Labs开源16亿参数TTS模型,只需文本输入,生成媲美真人对话的语音 |
| 28 | 【AI大模型前沿】阿里巴巴开源LHM:单图生成可动画3D人体模型,开启3D建模新纪元 |
| 29 | 【AI大模型前沿】TinyLLaVA-Video-R1:北航开源视频推理模型、小尺寸大智慧、参数少一半,性能翻一番 |
| 30 | 【AI大模型前沿】TTRL:测试时强化学习,开启无标签数据推理新篇章 |
| 31 | 【AI大模型前沿】Aero-1-Audio:Qwen2.5架构加持,轻量级音频模型天花板、吊打Whisper |
| 32 | 【AI大模型前沿】DianJin-R1:阿里云通义点金联合苏大推出的金融推理增强大模型 |
| 33 | 【AI大模型前沿】VITA-Audio:腾讯开源的高效语音交互多模态大语言模型 |
| 34 | 【AI大模型前沿】Multiverse:全球首个AI多人游戏世界模型,低成本高效率新突破 |
| 35 | 【AI大模型前沿】Seed1.5-VL:多模态理解的效率革新者,以小博大,性能惊艳 |
| 36 | 【AI大模型前沿】ViLAMP:蚂蚁集团和人民大学联手打造的长视频理解利器,单卡处理3小时视频 |
| 37 | 【AI大模型前沿】Muyan-TTS:开源零样本语音合成模型、0.33秒极速生成播客级语音、小白也能玩转AI配音 |
| 38 | 【AI大模型前沿】Dolphin:字节跳动开源文档解析大模型,轻量级、高效、多格式,开启文档处理新时代 |
| 39 | 【AI大模型前沿】ChatTS:字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理 |
| 40 | 【AI大模型前沿】Index-AniSora:B站开源的动漫视频生成模型,助力高效创作 |
| 41 | 【AI大模型前沿】RelightVid:上海 AI Lab联合复旦等高校推出的视频重照明模型 |
| 42 | 【AI大模型前沿】BAGEL:字节跳动开源、多模态大模型的创新突破与实践指南 |
| 43 | 【AI大模型前沿】Matrix-Game:昆仑万维开源大模型,一键生成你的专属虚拟世界 |
| 44 | 【AI大模型前沿】Pixel Reasoner:滑铁卢联合港科大等高校推出的视觉语言模型,助力视觉推理新突破 |
| 45 | 【AI大模型前沿】CoGenAV:多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+ |
| 46 | 【AI大模型前沿】Ming-Lite-Omni:蚂蚁集团开源的统一多模态大模型的创新实践 |
| 47 | 【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型 |
| 48 | 【AI大模型前沿】OmniAudio:阿里通义实验室的空间音频生成模型,开启沉浸式体验新时代 |
| 49 | 【AI大模型前沿】MiniCPM 4.0:面壁智能开源的极致高效端侧大模型(小版本、低消耗、220倍极致提速) |
| 50 | 【AI大模型前沿】SmolVLA:Hugging Face开源的轻量级视觉-语言-行动机器人模型 |
| 51 | 【AI大模型前沿】Time-R1:伊利诺伊大学香槟分校开源的时间推理语言模型、实现过去→未来全链路推演 |
| 52 | 【AI大模型前沿】MonkeyOCR:基于结构-识别-关系三元组范式的文档解析模型 |
| 53 | 【AI大模型前沿】GLM-4.5:智谱打造的开源SOTA模型,推理、代码与智能体能力融合先锋 |
| 54 | 【AI大模型前沿】百度飞桨PaddleOCR 3.0开源发布,支持多语言、手写体识别,赋能智能文档处理 |
| 55 | 【AI大模型前沿】Stream-Omni:多模态交互的“黄金三角”——视觉、语音、文本的完美融合 |
| 56 | 【AI大模型前沿】Vui:Fluxions-AI开源的轻量级语音对话模型,开启自然语音交互新时代 |
| 57 | 【AI大模型前沿】腾讯AI Lab开源的SongGeneration:音乐生成大模型的技术探索与实践 |
| 58 | 【AI大模型前沿】Osmosis-Structure-0.6B:小型语言模型在结构化信息提取中的突破 |
| 59 | 【AI大模型前沿】Kwai Keye-VL:颠覆认知!国产多模态大模型突然发布,视频理解能力堪比人类 |
| 60 | 【AI大模型前沿】Nanonets-OCR-s:从学术论文到法律合同,智能识别公式、签名、表格与图像 |
| 61 | 【AI大模型前沿】OmniAvatar:浙大联合阿里打造的音频驱动全身视频生成模型 |
| 62 | 【AI大模型前沿】DAMO GRAPE:阿里达摩院与浙江肿瘤医院联合打造的早期胃癌识别AI模型 |
| 63 | 【AI大模型前沿】阿里开源Lingshu:一个模型搞定12种医学影像诊断 |
| 64 | 【AI大模型前沿】原石科技MetaStone-S1:突破性反思型生成式大模型的技术解析与实践指南 |
| 65 | 【AI大模型前沿】清华实验室开源MOSS-TTSD:口语对话语音生成的突破 |
| 66 | 【AI大模型前沿】昆仑万维开源Skywork-R1V3:38B多模态推理模型,高考数学142分刷新开源SOTA |
| 67 | 【AI大模型前沿】Voxtral:Mistral AI开源的高性价比语音转录与理解模型 |
| 68 | 【AI大模型前沿】Goedel-Prover-V2:普林斯顿联合清华开源的定理证明模型,AI数学研究新里程碑 |
| 69 | 【AI大模型前沿】Seed-X:字节跳动开源的7B参数多语言翻译模型,挑战超大型模型性能 |
| 70 | 【AI大模型前沿】OpenReasoning-Nemotron:英伟达开源的推理利器,助力数学、科学与代码任务 |
| 71 | 【AI大模型前沿】阿里通义千问 Qwen3-Coder:开启智能代码生成与代理式编程新时代 |
| 72 | 【AI大模型前沿】Qwen3-SmVL:基于阿里通义千问3和SmolVLM拼接打造1 GB显存可跑的中文超小多模态大模型 |
| 73 | 【AI大模型前沿】通义万相Wan2.2:阿里270亿参数巨兽开源,消费级显卡就能跑,免费平替Sora上线 |
| 74 | 【AI大模型前沿】Higgs Audio V2杀疯:Boson AI开源语音大模型(克隆声音、同步BGM、低延迟对话一键搞定) |
| 75 | 【AI大模型前沿】腾讯混元3D世界生成模型HunyuanWorld-1.0:开启沉浸式3D内容创作新纪元 |
| 76 | 【AI大模型前沿】Intern-S1:上海AI Lab打造的科学多模态大模型,助力科研智能化 |
| 77 | 【AI大模型前沿】腾讯混元Dense模型:从智能座舱到客服机器人,用0.5B参数打穿全场景 |
| 78 | 【AI大模型前沿】Qwen-Image:免费开源、写段文案→直接出图→还能继续精修,全程不用PS |
| 79 | 【AI大模型前沿】小米开源MiDashengLM:语音、音乐、环境声一网打尽、智能座舱直接起飞 |
| 80 | 【AI大模型前沿】InternVL3.5:上海 AI Lab 开源多模态大模型、荣登多模态开源榜首 |
| 81 | 【AI大模型前沿】Qwen3-Max-Preview:阿里通义千问的万亿参数大模型,开启AI新纪元 |
| 82 | 【AI大模型前沿】dots.vlm1:小红书hi lab开源的高性能多模态大模型、免费可商用,图表推理直接封神 |
| 83 | 【AI大模型前沿】GLM-4.5V:智谱最新一代视觉推理模型,开源即巅峰,42项SOTA碾压全场,多模态一键秒杀 |
| 84 | 【AI大模型前沿】Jan-v1:基于阿里云Qwen3-4B-Thinking的高性能本地运行AI模型 |
| 85 | 【AI大模型前沿】KittenTTS:KittenML开源的轻量级文本转语音模型,离线部署与高效性能的完美结合 |
| 86 | 【AI大模型前沿】Baichuan-M2:百川智能开源医疗增强大模型,助力医疗智能化转型 |
| 87 | 【AI大模型前沿】MiroThinker:基于Qwen3构建的开源Agent模型系列,助力复杂任务解决 |
| 88 | 【AI大模型前沿】DINOv3:Meta开源的自监督视觉模型,卫星/医疗/自拍全通杀,性能吊打CLIP全家桶 |
| 89 | 【AI大模型前沿】VibeVoice:微软开源7B模型,跨语言、多说话人、长文本一次到位 |
| 90 | 【AI大模型前沿】Waver 1.0:字节跳动推出的AI视频生成模型,支持文本/图像到高清视频的创作 |
| 91 | 【AI大模型前沿】MobileCLIP2:苹果开发端侧大模型,让手机秒变AI神器、拍照就能写文案、搜图片零误差 |
| 92 | 【AI大模型前沿】MiniCPM-V 4.5:OpenBMB推出的高性能端侧多模态大模型 |
| 93 | 【AI大模型前沿】Step-Audio 2 mini:阶跃星辰开源的端到端语音大模型,听得清楚、想得明白、说得自然 |
| 94 | 【AI大模型前沿】HunyuanWorld-Voyager:腾讯开源的超长漫游世界模型,开启3D场景生成新纪元 |
| 95 | 【AI大模型前沿】EmbeddingGemma:谷歌开源的移动端优先文本嵌入模型,200MB 内存搞定 100 种语言 RAG,性能翻倍 |
| 96 | 【AI大模型前沿】Apertus:瑞士首个开源大模型,多语言支持,合规训练,高效性能 |
| 97 | 【AI大模型前沿】OneCAT:美团联合上交大推出的纯解码器多模态模型 |
| 98 | 【AI大模型前沿】MiniCPM4.1:面壁智能重磅开源,128K长文本推理秒级响应,端侧性能狂飙7倍 |
| 99 | 【AI大模型前沿】VoxCPM:OpenBMB 推出的无分词器 TTS 模型,实现上下文感知语音生成与逼真语音克隆 |
| 100 | 【AI大模型前沿】IBM Granite-Docling-258M:开源企业级文档 AI 模型的创新与应用 |
| 101 | 【AI大模型前沿】小红书开源FireRedTTS-2:突破性多说话人长对话语音生成系统完全解析 |
| 102 | 【AI大模型前沿】PP-OCRv5:百度飞桨的高效多语言文字识别利器,0.07 亿参数狂飙 370 字/秒,支持 40+ 语种 |
| 103 | 【AI大模型前沿】小米AI实验室发布ZipVoice系列语音合成模型,重塑语音交互体验 |
| 104 | 【AI大模型前沿】IndexTTS2:B站开源的零样本语音合成模型,实现情感与时长精准控制 |
| 105 | 【AI大模型前沿】Ling-V2:蚂蚁百灵团队打造的高效智能语言模型 |
| 106 | 【AI大模型前沿】腾讯ARC开源AudioStory:大语言模型驱动的长篇叙事音频生成技术 |
| 107 | 【AI大模型前沿】Mini-o3:字节跳动联合港大推出的开源视觉推理模型 |
| 108 | 【AI大模型前沿】InternVLA-N1:上海 AI Lab 开源的端到端双系统导航大模型 |
| 109 | 【AI大模型前沿】InternVLA-A1:上海AI实验室开源的具身操作大模型,助力机器人实现理解、想象与执行一体化 |
| 110 | 【AI大模型前沿】深度解析DeepSeek-R1-Safe:华为与浙大合作的安全大模型 |
| 111 | 【AI大模型前沿】小米开源语音大模型 Xiaomi-MiMo-Audio:开启语音领域的“LLaMA时刻” |
| 112 | 【AI大模型前沿】百度Qianfan-VL:企业级多模态大模型的领域增强解决方案,OCR、数学、图表一把抓 |
| 113 | 【AI大模型前沿】Qwen3Guard:阿里云通义千问团队推出的安全防护模型 |
| 114 | 【AI大模型前沿】Qwen3-VL:阿里云通义千问的多模态视觉语言模型,开启智能交互新纪元 |
| 115 | 【AI大模型前沿】Qwen3-Omni:阿里巴巴通义千问团队引领全模态大模型新突破 |
| 116 | 【AI大模型前沿】Qwen3-TTS-Flash:阿里通义的多语言多音色语音合成利器 |
| 117 | 【AI大模型前沿】FLM-Audio:智源研究院开源的全双工音频对话大模型,开启自然流畅语音交互新时代 |
| 118 | 【AI大模型前沿】DeepSeek-V3.2-Exp:基于稀疏注意力机制的高效长文本处理大模型 |
| 119 | 【AI大模型前沿】智谱GLM-4.6:355B参数的旗舰级AI模型,代码能力与推理性能全面升级 |
| 120 | 【AI大模型前沿】Logics-Parsing:阿里巴巴开源的端到端文档解析模型 |
| 121 | 【AI大模型前沿】Ming-UniAudio:蚂蚁集团开源的多功能统一语音大模型 |
| 122 | 【AI大模型前沿】Ling-1T:蚂蚁集团开源万亿参数的高效推理非思考模型 |
| 123 | 【AI大模型前沿】微软UserLM-8b:AI助手的“逼真陪练”,多轮对话精炼利器 |
| 124 | 【AI大模型前沿】NeuTTS Air:Neuphonic打造的超拟真离线语音合成模型 |
| 125 | 【AI大模型前沿】Youtu-Embedding:腾讯优图开源的高性能通用文本表示模型 |
| 126 | 【AI大模型前沿】UniPixel:香港理工大学联合腾讯推出的像素级多模态大模型 |
| 127 | 【AI大模型前沿】SongBloom:腾讯AI Lab开源的全长度歌曲生成模型 |
| 128 | 【AI大模型前沿】SAIL-VL2:字节跳动开源的“小而强”视觉语言模型,2B参数也能吊打大模型 |
| 129 | 【AI大模型前沿】PaddleOCR-VL:百度0.9B超轻量级文档解析利器,多语言多模态功能强大 |
| 130 | 【AI大模型前沿】HunyuanWorld-Mirror:腾讯开源的多功能3D重建大模型 |
| 131 | 【AI大模型前沿】DeepSeek-OCR:开启OCR 2.0时代,用视觉压缩技术革新文档处理 |
| 132 | 【AI大模型前沿】FIBO:首个开源原生支持JSON的文本生成图像模型 |
目录
- 系列篇章💥
- 前言
- 一、项目概述
- 二、核心功能
- (一)文本到图像生成
- (二)结构化JSON提示
- (三)迭代可控生成
- (四)特征解耦控制
- (五)灵感模式
- (六)企业级合规性
- (七)生产级集成
- 三、技术揭秘
- (一)架构与训练方式
- (二)文本编码器
- (三)VAE
- (四)VLM引导
- (五)结构化监督
- (六)数据合规性
- 四、应用场景
- (一)专业设计与创意工作流
- (二)影视与娱乐
- (三)教育与培训
- (四)科学研究
- (五)医疗与健康
- 五、快速使用
- (一)安装依赖
- (二)生成模式
- (三)精修模式
- (四)灵感模式
- 六、结语
- 七、项目地址
前言
在人工智能领域,文本生成图像技术正快速发展,但大多数模型在可控性、可预测性和特征解耦方面存在不足。FIBO的出现改变了这一现状,它作为首个开源的原生支持JSON的文本生成图像模型,为专业工作流提供了强大的支持。
一、项目概述
FIBO是一个开源的文本生成图像模型,专为长结构化描述训练而成。它在超过1亿条结构化JSON描述上训练,每条约1000字,能够精确、可重复地控制光线、构图、色彩与相机参数。FIBO支持生成、精修和灵感三种模式,具备特征解耦能力,可单独调整某个属性而不破坏整体场景。其使用100%授权数据,确保合规性和法律透明性,适合专业工作流。
二、核心功能
(一)文本到图像生成
FIBO能够根据用户输入的文本描述快速生成高质量的图像。无论是简单的创意构思还是复杂的场景设计,FIBO都能精准地将文本中的细节转化为视觉图像,为用户提供直观的创作结果。
(二)结构化JSON提示
FIBO支持将简短的文本提示扩展为详细的结构化JSON描述。这种结构化描述包含光线、构图、色彩等细节,为图像生成提供更丰富的信息,确保生成结果更符合用户期望。
(三)迭代可控生成
FIBO支持从简短提示生成图像,也可基于已有JSON提示进行多轮细化。用户可以通过逐步调整描述,逐步完善图像效果,实现精准的迭代控制。
(四)特征解耦控制
FIBO具备特征解耦能力,用户可以单独调整某个属性(如相机角度),而不会破坏整体场景的协调性。这种能力使得图像生成更加灵活,满足专业用户的需求。
(五)灵感模式
FIBO可以通过输入图像提取结构化提示,生成相关图像,激发用户的创意。这种模式适用于从已有的图像中获取灵感,生成新的创意图像。
(六)企业级合规性
FIBO完全使用授权数据进行训练,确保了法律透明性和可重复性。这种合规性使得FIBO适用于企业级应用,避免了数据使用中的法律风险。
(七)生产级集成
FIBO支持API接口、ComfyUI节点及本地推理,方便在不同环境中使用。这种灵活性使得FIBO能够无缝集成到现有的生产环境中,提升工作效率。
三、技术揭秘
(一)架构与训练方式
FIBO基于8B参数的DiT架构,采用流匹配训练方式,这种架构和训练方式使其在保持较小模型规模的同时,能够生成高质量的图像。
(二)文本编码器
使用SmolLM3-3B作为文本编码器,并搭配创新的DimFusion条件架构,能够高效地处理长描述文本,为图像生成提供更准确的语义信息。
(三)VAE
采用Wan 2.2作为VAE,负责图像的编码和解码,确保生成图像的细节和质量。
(四)VLM引导
通过视觉语言模型(VLM)将简短文本提示扩展为详细的结构化JSON提示,帮助用户更精准地表达生成需求。
(五)结构化监督
使用结构化JSON描述进行训练,促进特征解耦,避免提示词漂移,使生成结果更符合用户期望。
(六)数据合规性
在超过1亿条授权的长结构化JSON描述上训练,确保数据的合法性和合规性。
四、应用场景
(一)专业设计与创意工作流
在广告、产品设计和平面设计领域,FIBO能够根据设计师的文本描述快速生成高质量的图像原型。设计师可以通过迭代调整描述,逐步完善图像细节,从而大幅缩短创意构思和设计迭代的时间,提升工作效率。
(二)影视与娱乐
FIBO为影视、游戏和动画制作提供了强大的概念艺术生成能力。创作者可以输入简短的场景描述,生成详细的视觉化图像,帮助快速将创意转化为可视化的概念设计,加速项目开发流程,节省时间和成本。
(三)教育与培训
在教育领域,FIBO可以生成教学图像和虚拟实验场景。教师可以根据教学内容输入描述,生成直观的图像或场景,帮助学生更好地理解和掌握知识,提升教学效果和学习体验。
(四)科学研究
FIBO能够将科学数据转化为直观的图像,帮助研究人员更好地展示研究成果和进行数据可视化。例如,输入科学实验的描述,生成对应的图像,便于在学术报告和论文中展示。
(五)医疗与健康
在医疗领域,FIBO可以生成医学示意图和虚拟手术场景。医学生可以通过输入手术步骤描述,生成相应的图像,辅助学习和培训。此外,FIBO还可以用于医学科普,帮助患者更好地理解病情和治疗方案。
五、快速使用
(一)安装依赖
安装Diffusers及相关依赖,为使用FIBO做好准备。
pipinstallgit+https://github.com/huggingface/diffusers torch torchvision google-genai boltons ujson sentencepiece accelerate transformers(二)生成模式
使用VLM将简短提示扩展为详细结构化提示,然后生成图像。
importjsonimportosimporttorchfromdiffusersimportBriaFiboPipelinefromdiffusers.modular_pipelinesimportModularPipeline# Load the VLM pipelinetorch.set_grad_enabled(False)assertos.getenv("GOOGLE_API_KEY")isnotNone,"GOOGLE_API_KEY environment variable is not set"vlm_pipe=ModularPipeline.from_pretrained("briaai/FIBO-gemini-prompt-to-JSON",trust_remote_code=True)# Load the FIBO pipelinepipe=BriaFiboPipeline.from_pretrained("briaai/FIBO",torch_dtype=torch.bfloat16,)pipe.to("cuda")# Create a prompt to generate an initial imageoutput=vlm_pipe(prompt="A hyper-detailed, ultra-fluffy owl sitting in the trees at night, looking directly at the camera with wide, adorable, expressive eyes. Its feathers are soft and voluminous, catching the cool moonlight with subtle silver highlights. The owl's gaze is curious and full of charm, giving it a whimsical, storybook-like personality.")json_prompt_generate=output.values["json_prompt"]defget_default_negative_prompt(existing_json:dict)->str:negative_prompt=""style_medium=existing_json.get("style_medium","").lower()ifstyle_mediumin["photograph","photography","photo"]:negative_prompt="""{'style_medium':'digital illustration','artistic_style':'non-realistic'}"""returnnegative_prompt negative_prompt=get_default_negative_prompt(json.loads(json_prompt_generate))# Generate the image from the structured json promptresults_generate=pipe(prompt=json_prompt_generate,num_inference_steps=50,guidance_scale=5,negative_prompt=negative_prompt)results_generate.images[0].save("image_generate.png")withopen("image_generate_json_prompt.json","w")asf:f.write(json_prompt_generate)(三)精修模式
基于已有的结构化提示和新的指令,FIBO可以对图像进行精修。
output=vlm_pipe(json_prompt=json_prompt_generate,prompt="make the owl brown")json_prompt_refine_from_image=output.values["json_prompt"]negative_prompt=get_default_negative_prompt(json.loads(json_prompt_refine_from_image))results_refine_from_image=pipe(prompt=json_prompt_refine_from_image,num_inference_steps=50,guidance_scale=5,negative_prompt=negative_prompt)results_refine_from_image.images[0].save("image_refine_from_image.png")withopen("image_refine_from_image_json_prompt.json","w")asf:f.write(json_prompt_refine_from_image)(四)灵感模式
从输入图像提取结构化提示,生成相关图像,激发创意。
fromPILimportImage original_astronaut_image=Image.open("<path to original astronaut image>")output=vlm_pipe(image=original_astronaut_image,prompt="")json_prompt_inspire=output.values["json_prompt"]negative_prompt=get_default_negative_prompt(json.loads(json_prompt_inspire))results_inspire=pipe(prompt=json_prompt_inspire,num_inference_steps=50,guidance_scale=5,negative_prompt=negative_prompt)results_inspire.images[0].save("image_inspire_no_prompt.png")withopen("image_inspire_json_prompt_no_prompt.json","w")asf:f.write(json_prompt_inspire)六、结语
FIBO作为首个开源的原生支持JSON的文本生成图像模型,凭借其强大的核心功能、先进的技术架构和广泛的应用场景,为文本生成图像领域带来了新的突破。它不仅满足了专业用户对图像生成的高要求,还通过企业级的合规性和生产级的集成能力,为企业的数字化创作提供了可靠的支持。希望本文能够帮助读者深入了解FIBO的技术细节和使用方法,激发更多的创意和应用。
七、项目地址
- GitHub仓库:https://github.com/Bria-AI/FIBO
- HuggingFace模型库:https://huggingface.co/briaai/FIBO
- 在线体验Demo:https://huggingface.co/spaces/briaai/FIBO
🎯🔖更多专栏系列文章:AI大模型提示工程完全指南、AI大模型探索之路(零基础入门)、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑
😎作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!