Nitro-E：304M参数高效图文扩散模型-洪萨配资

AMD近日发布了全新的文本到图像扩散模型家族Nitro-E，以304M的轻量级参数实现了高效训练与推理，标志着大模型在资源优化方向的重要突破。

【免费下载链接】Nitro-E项目地址: https://ai.gitcode.com/hf_mirrors/amd/Nitro-E

当前AI生成图像领域正面临模型规模与计算成本的双重挑战。主流文生图模型通常需要数十亿甚至千亿参数，训练动辄消耗数千GPU日，这不仅推高了技术门槛，也限制了其在边缘设备和中小企业的应用普及。据相关数据显示，2024年文生图API服务成本仍是制约市场渗透率的主要因素之一，轻量化、高效率已成为模型研发的核心竞争点。

Nitro-E系列模型的核心优势在于其革命性的效率设计。该模型基于AMD提出的Efficient Multimodal Diffusion Transformer（E-MMDiT）架构，通过三重创新实现性能跃升：首先采用高度压缩的视觉tokenizer和多路径压缩模块，将图像表征的计算成本大幅降低；其次引入Position Reinforcement技术增强空间连贯性，配合Alternating Subregion Attention（ASA）机制减少注意力计算量；最后通过AdaLN-affine模块优化Transformer块的调制参数计算效率。

在实际性能表现上，Nitro-E展现出惊人的资源效率。基础版Nitro-E-512px模型仅需在8张AMD Instinct™ MI300X GPU组成的单节点上训练1.5天即可完成，相比同类模型缩短了90%以上的训练周期。推理方面，单个MI300X GPU即可实现18.8样本/秒的吞吐量（512px图像，批大小32），而经过蒸馏优化的Nitro-E-512px-dist版本更是将吞吐量提升至39.3样本/秒，相当于每秒可生成近40张高清图像。

如上图所示，该图片展示了Nitro-E模型的核心架构与性能对比。左侧呈现了E-MMDiT的网络结构设计，右侧则直观展示了不同版本模型在吞吐量上的显著优势，清晰体现了AMD在模型效率优化上的技术突破。

Nitro-E提供了三种不同优化方向的版本：基础版Nitro-E-512px（20步推理）、蒸馏版Nitro-E-512px-dist（4步推理）以及采用Group Relative Policy Optimization（GRPO）策略微调的优化版Nitro-E-512px-GRPO。这种多版本策略使模型能灵活适配不同应用场景——从追求极致速度的实时生成到需要高精度的专业创作，用户可根据实际需求选择最优配置。

在数据集构建上，Nitro-E使用了约2500万张图像的混合训练集，包括Segment-Anything-1B、JourneyDB、DiffusionDB等公开数据源，确保模型具备广泛的视觉理解能力和创作多样性。AMD同时开源了模型代码和技术文档，开发者可通过简单的Python接口快速集成Nitro-E到现有应用中，例如：

# 4步快速推理示例 import torch from core.tools.inference_pipe import init_pipe device = torch.device('cuda:0') dtype = torch.bfloat16 pipe = init_pipe(device, dtype, 512, repo_name="amd/Nitro-E", ckpt_name="Nitro-E-512px-dist.safetensors") images = pipe(prompt="A hot air balloon in the shape of a heart grand canyon", num_inference_steps=4, guidance_scale=0).images

Nitro-E的推出将对AI内容生成领域产生深远影响。对于云服务提供商，其超高吞吐量意味着可以用更少的硬件资源支撑更多并发用户，显著降低服务成本；对企业用户而言，模型的轻量化特性使其能够在本地部署文生图能力，避免敏感数据外泄风险；而开源策略则将加速学术界对高效扩散模型的研究探索。

【免费下载链接】Nitro-E项目地址: https://ai.gitcode.com/hf_mirrors/amd/Nitro-E

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Qwen3-30B-A3B-Instruct-2507：256K上下文升级，大模型长文本处理能力再突破

Qwen3-30B-A3B-Instruct-2507：256K上下文升级，大模型长文本处理能力再突破【免费下载链接】Qwen3-30B-A3B-Instruct-2507 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-30B-A3B-Instruct-2507 导语：阿里达摩院旗下Qwen系…

李华

MateChat终极指南：快速构建AI对话界面的完整解决方案

在AI技术快速发展的今天，如何高效构建智能对话界面成为了前端开发者的重要课题。MateChat作为一款专为智能化场景设计的前端UI库，提供了完整的解决方案，让开发者能够快速搭建专业的AI应用界面。【免费下载链接】MateChat 前端智能化场景解决…

李华

Cot框架：为懒人开发者设计的Rust Web开发神器

Cot框架：为懒人开发者设计的Rust Web开发神器【免费下载链接】cot The Rust web framework for lazy developers. 项目地址: https://gitcode.com/gh_mirrors/cot3/cot 你是否曾经因为繁琐的Web开发配置而头疼不已？是否厌倦了重复的样板代码&…

李华

Sourcetrail索引异常深度解析：从诊断到修复的完整解决方案

Sourcetrail索引异常深度解析：从诊断到修复的完整解决方案【免费下载链接】Sourcetrail Sourcetrail - free and open-source interactive source explorer 项目地址: https://gitcode.com/GitHub_Trending/so/Sourcetrail 当Sourcetrail这款开源交互式源码…

李华

Langchain-Chatchat与主流大模型集成方案：适配多种LLM引擎

Langchain-Chatchat与主流大模型集成方案：适配多种LLM引擎在企业知识管理日益复杂的今天，如何让AI真正“懂”自家业务，而不是凭空编造答案？这成了许多组织落地智能问答系统时的首要挑战。通用大模型虽然能写诗作画、逻辑推理&…

李华

Langchain-Chatchat电竞赛事预测：战队胜负概率模型推演

Langchain-Chatchat电竞赛事预测：战队胜负概率模型推演在电子竞技日益职业化的今天，一场关键比赛的胜负往往不仅取决于选手临场发挥，更依赖于赛前对对手战术、版本趋势和心理状态的深度洞察。传统上，教练组需要花费数小时翻阅历史…

李华