AMD Nitro-E:高效训练的文本到图像扩散模型
【免费下载链接】Nitro-E项目地址: https://ai.gitcode.com/hf_mirrors/amd/Nitro-E
AMD近日推出全新文本到图像扩散模型Nitro-E,以304M参数实现高效训练与推理,仅需单节点8张AMD Instinct™ MI300X GPU训练1.5天即可完成,标志着生成式AI在效率优化领域的重要突破。
当前AI生成领域正面临"效率与质量"的双重挑战。一方面,主流文本到图像模型普遍需要数十亿参数和数周训练时间,导致研发成本居高不下;另一方面,企业级应用对推理速度和硬件资源占用提出了更高要求。根据Gartner最新报告,到2025年,计算效率将成为AI模型选型的首要考量因素,超过单纯的性能指标。
Nitro-E系列模型通过创新架构设计实现了效率突破。其核心是AMD提出的Efficient Multimodal Diffusion Transformer(E-MMDiT)架构,通过三重优化实现性能跃升:采用高度压缩的视觉tokenizer减少表征数据量,创新多路径压缩模块进一步降低计算负载,同时引入位置增强技术保持空间连贯性。
如上图所示,该示意图展示了Nitro-E的E-MMDiT架构核心设计理念,突出了token压缩与计算效率优化的关键创新。这一架构图直观呈现了模型如何在保持生成质量的同时,通过架构创新实现资源占用的显著降低。
该系列包含三个版本:基础版Nitro-E-512px(20步推理)、蒸馏版Nitro-E-512px-dist(4步推理)以及GRPO优化版Nitro-E-512px-GRPO。其中蒸馏版在单张MI300X GPU上实现39.3样本/秒的吞吐量,较基础版提升109%,为实时生成应用奠定基础。
在训练效率方面,Nitro-E展现出惊人表现。基于2500万张图像的混合数据集(含Segment-Anything-1B、JourneyDB等公开数据源),基础模型仅需1.5天即可完成训练,相比同类模型平均缩短80%以上的训练周期。这种高效特性使中小研发团队也能负担文本到图像模型的定制化训练需求。
实际应用中,Nitro-E展现出灵活的部署能力。开发者可通过简单API调用实现快速集成:
from core.tools.inference_pipe import init_pipe pipe = init_pipe(device='cuda:0', dtype=torch.bfloat16, resolution=512, repo_name="amd/Nitro-E", ckpt_name='Nitro-E-512px-dist.safetensors') images = pipe(prompt="A hot air balloon in the shape of a heart grand canyon", num_inference_steps=4).images这段示例代码展示了Nitro-E的极简部署流程,4步推理即可生成高质量512px图像,大幅降低了实时生成场景的延迟。
Nitro-E的推出可能重塑文本到图像生成的产业格局。对硬件厂商而言,其针对MI300X的深度优化将加速AMD GPU在AI创作领域的普及;对应用开发者,低延迟特性使实时互动设计、AR内容生成等场景成为可能;对研究社区,开源代码和训练策略为高效扩散模型研究提供了新范式。
【免费下载链接】Nitro-E项目地址: https://ai.gitcode.com/hf_mirrors/amd/Nitro-E
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考