news 2026/2/3 9:06:39

大模型 MoE,你明白了么?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型 MoE,你明白了么?

大模型 MoE,你明白了么?

最近被T4卡搞得有点抽风就多些一点关于大模型的讲解的。由浅至深的讲个透,愿天下用老旧显卡的人儿都可以远离傻*问题。

作者:吴佳浩

最后更新:2025-12-11

适用人群:大模型上下游相关从业者

——以 Qwen2/Qwen3 为例,从入门到回家


1. 什么是 MoE(Mixture of Experts)

核心概念

MoE = 混合专家模型,它让模型由多个"专家网络"组成,每次推理只激活少量专家,从而实现:

  • 保留大模型能力- 总参数量大,能力强
  • 降低推理成本- 只激活部分参数,计算量小
  • 提升领域能力- 专家各司其职,术业有专攻

核心理念

💡 不需要每个 token 都用 300 亿参数计算,而是只调用其中最适合解决该问题的专家。

这就像一个医院:

  • 你头疼不需要召集所有科室医生
  • 只需要神经科专家诊断
  • 但医院仍然拥有全科能力

为什么需要 MoE?

Dense 模型的问题:

参数量推理需要激活显存需求
70B全 70B极高(>140GB FP16)

MoE 的改进:

总参数量每次激活实际推理成本
70B(含16个专家)Top-1=3B像跑 3B 模型一样 cheap

核心思想:选对专家,而不是计算全部专家。


2. MoE 架构全景

2.1 基础架构流程

权重 0.8
权重 0.2
不激活
不激活
不激活
输入 Token:
写一段 Python 代码
Router 路由器
分析 token 特征
Expert 1
代码专家
Expert 5
逻辑专家
Expert 2
Expert 3
Expert 4
加权合并输出
最终输出

关键要素解释:

  1. Router(路由器)- 根据输入内容选择最适合的专家(Top-1 / Top-2)
  2. Experts(专家)- 每个都是独立的 FFN 网络,拥有专属参数
  3. 选择性激活- 只激活部分专家,其余专家在当前 token 不参与运算
  4. 加权合并- 将激活专家的输出按权重求和

2.2 完整 Transformer 层结构

MoE Transformer 层
Multi-Head Attention
Input
Add & Norm
MoE Layer
路由器选择
Expert 1
Expert 2
Expert N
Sparse Activation
仅部分专家激活
Add & Norm
Output
传统 Transformer 层
Multi-Head Attention
Input
Add & Norm
Dense FFN
所有参数激活
Add & Norm
Output

对比要点:

  • 传统模型:FFN 层所有参数都参与计算
  • MoE 模型:用多专家 + 路由器替代 Dense FFN

3. Dense 模型 vs MoE 模型:显存与计算对比

3.1 什么是 Dense(稠密模型)

Dense = 所有参数全部参与推理

输入
Layer 1
32B 参数
Layer 2
32B 参数
Layer 3
32B 参数
输出

示例:

  • Qwen2.5-32B Dense
    • 推理时 32B 全激活
    • 显存占用 60+ GB(FP16)
    • 性能强但成本高

显存对比表:

模型FP16FP8INT8INT4
Qwen3 Dense 32B(全激活)60+ GB30 GB28 GB15 GB
Qwen3 MoE 30B(激活 ~3B)6 GB3 GB3 GB1.5 GB

👉MoE 推理显存 ≈ Dense 的 1/10~1/20


3.2 什么是 MoE(混合专家模型)

MoE = 总参数大,但每次只激活少量专家

Active
Active
Input
Layer 1
Total Params 30B
Router
Select Top-2
Expert 1
1.5B
Expert 5
1.5B
Other Experts
Not Activated
27B
Merge Output
Next Layer

示例:

  • Qwen1.5-MoE-33B
    • 总参数:33B
    • 激活专家:Top-1(约 3B)
    • 显存占用:~6GB(FP16)
    • 推理成本 ≈ 3B Dense 模型

3.3 显存占用对比表(重要!)

Qwen3 32B Dense&Qwen3 30B MoE为例:

模型配置FP16(全精度)FP8INT8INT4
Qwen3 Dense 32B
(全参数激活)
60+ GB~30 GB~28 GB~15 GB
Qwen3 MoE 30B
(激活 3B)
~6 GB~3 GB~3 GB~1.5 GB
051015202530354045505560FP16FP8INT8INT4FP16FP8INT8INT430B 模型3B 模型显存占用对比(GB)

结论:

MoE 推理显存消耗 ≈ Dense 的 1/10

原因:

  • Dense:所有层、所有参数都要参与计算
  • MoE:每层只用少数专家(如激活 3B)

这就是为什么30B MoE 可以在消费级显卡运行


4. MoE 的关键概念

4.1 专家数量(Experts)

专家分工示例:

  • Expert 1:推理、逻辑分析
  • Expert 3:数学、计算
  • Expert 5:代码生成
  • Expert 7:语言翻译
  • Expert 10:创意写作

4.2 Top-K(激活专家数量)

Top-2 策略
Top-1 策略
选择得分最高的 2 个专家
性能更好
成本适中
选择得分最高的 1 个专家
专家得分排序
速度最快
成本最低
输入 Token
Router 打分

常见配置:

  • Top-1:每次激活 1 个专家(速度快)
  • Top-2:每次激活 2 个专家(性能好)

4.3 参数关系图

MoE 模型
总参数 30B
共 16 个专家
Expert 1
1.9B 参数
Expert 2
1.9B 参数
Expert 3
1.9B 参数
...
Expert 16
1.9B 参数
推理时 Top-1
只激活 1 个专家
约 3B 参数
其余 15 个专家
不参与计算

关键公式:

总参数 = 专家数量 × 单专家参数 + 共享参数 激活参数 = Top-K × 单专家参数 + 共享参数 推理成本 ∝ 激活参数(而非总参数)

5. 常见疑问:没激活的专家是不是浪费?

❌ 错误理解

用户提问
激活 Expert 4
代码专家
其他 15 个专家
完全没用?

✅ 正确理解

MoE 专家池
不同任务触发不同专家
任务 1: 写代码
触发 Expert 4
任务 2: 数学题
触发 Expert 3
任务 3: 翻译
触发 Expert 7
任务 4: 创作
触发 Expert 2
所有专家都会被使用
只是时机不同

真相:

  1. 训练时- 所有专家都会被激活并学习
  2. 推理时- 根据任务动态选择最合适的专家
  3. 长期使用- 每个专家都会在各自擅长的领域发光

类比:

🏥 医院有 16 个科室,你看病只挂 1 个科室,但其他科室不是浪费,而是在服务其他患者。


6. Qwen3(Dense / MoE)部署推荐方案

场景分析

24GB 消费级
48GB 专业卡
80GB+ 服务器
你的硬件条件?
显卡显存
推荐方案 1
推荐方案 2
推荐方案 3
Qwen3-14B Dense FP8 显存: ~14GB 性能: 强
Qwen1.5-MoE-33B INT4 显存: ~1.5GB 性能: 中上
Qwen3-32B Dense FP8 显存: ~30GB 性能: 极强
Qwen3-72B Dense FP8 显存: ~72GB 性能: 顶级

方案 1:注重性能(推荐)

Qwen3-14B Dense(INT4 或 FP8)

精度显存占用推荐指数说明
FP16~28GB超出 24GB 显存
FP8~14GB⭐⭐⭐⭐⭐强烈推荐
INT4~7GB⭐⭐⭐⭐轻量级最佳

优势:

  • 性能显著强于 7B
  • 性价比 > 70%
  • 适合日常对话、代码生成

方案 2:大模型能力 + 小显存

Qwen1.5-MoE-33B(INT4)

指标数值
总参数33B
激活参数~3B
显存占用~1.5GB (INT4)

优势:

  • ✅ 显存占用极低(4GB 显卡可跑)
  • ✅ 推理速度快
  • ✅ 性能接近 30B Dense(尤其中文、推理)

劣势:

  • ⚠️ 特定任务效果可能不如 Dense 精细

方案 3:企业级旗舰

Qwen3-72B Dense(FP8)

硬件要求:

  • A100 80GB / H100
  • 或多卡 80GB GPU

性能:

  • Top 级别
  • 适合企业级应用

7. MoE 的训练机制(进阶)

7.1 训练流程图

训练数据Router路由器Expert 1Expert 2Loss损失函数输入 Token计算专家得分激活 (权重 0.7)激活 (权重 0.3)输出 O1输出 O2计算任务损失+ 负载均衡损失反向传播更新反向传播更新更新路由参数训练数据Router路由器Expert 1Expert 2Loss损失函数

7.2 路由器训练机制

输入 Token 表示
Router 小型网络
Linear + Softmax
输出专家概率分布
Top-K 选择
专家得分: 0.35
专家得分: 0.28
专家得分: 0.15
其他专家...
选择 Top-2
+ 负载均衡损失
防止专家偏向

训练优化:

  1. 使用Softmax + Top-K
  2. 加入负载均衡(Load Balancing)损失项
  3. 确保专家不会"偏向性过强"

7.3 专家特化过程

训练后期
训练初期
演化
演化
演化
Expert 1
代码专家
Expert 2
数学专家
Expert 3
创意专家
Expert 1
通用能力
Expert 2
通用能力
Expert 3
通用能力
训练初期
专家无明显分工
中期
逐渐形成偏好
后期
专家特化完成

关键训练技术:

  • OBST(One-Batch Selective Training)
  • GShard(Google)
  • Switch Transformer(Google)
  • DeepSpeed-MoE(微软)

7.4 防止专家闲置的机制

结果:所有专家都有机会参与训练,不会出现"活跃专家"和"僵尸专家"。


8. 完整知识体系总结


9. 十句话掌握 MoE

  1. MoE = 多专家结构,每次只激活少数专家
  2. 总参数(如 30B)≠ 推理成本
  3. 推理成本 ≈ 激活参数(如 3B)
  4. Dense = 全部激活,性能强但成本高
  5. MoE = “大模型能力 + 小模型成本”
  6. INT4/FP8 是量化技术,与 MoE 架构无关
  7. INT4 省显存但会略降性能
  8. MoE 不会浪费参数,未激活专家会在其他任务中使用
  9. Qwen3-14B Dense FP8 是最稳健的部署方案
  10. Qwen-MoE 系列适合显存 4GB~24GB 的场景

10. 个人快速决策指南

4-8GB
12-16GB
20-24GB
40GB+
80GB+
性能
兼顾
开始选择模型
你的显存?
Qwen1.5-MoE-33B INT4
显存: 1.5GB
性能: 中上
Qwen3-7B Dense FP8
显存: 7GB
性能: 中
优先什么?
Qwen3-32B Dense FP8
显存: 30GB
性能: 极强
Qwen3-72B Dense FP8
显存: 72GB
性能: 顶级
Qwen3-14B Dense FP8
显存: 14GB
性能: 强
Qwen3-14B Dense INT4
显存: 7GB
性能: 强

附录:参考资源

官方文档:

  • Qwen 官方文档
  • Hugging Face Model Hub

部署工具:

  • vLLM
  • Ollama
  • llama.cpp

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/3 0:44:42

【PHP性能革命】:PHP 8.6 JIT编译器真实表现,9个关键指标全面对比

第一章:PHP 8.6 JIT性能革命的背景与意义PHP 作为长期服务于 Web 开发领域的主流脚本语言,其执行效率始终是开发者关注的核心议题。随着现代应用对响应速度和并发处理能力的要求不断提升,传统的解释执行模式逐渐显现出性能瓶颈。PHP 8.0 引入…

作者头像 李华
网站建设 2026/2/2 23:17:23

Linux系统编程——进程

目录 一、进程的定义与核心数据结构 1.进程的本质 2.进程控制块(PCB) 二、进程与程序的区别与联系 三、进程的虚拟内存布局 四、进程的分类 五、进程的状态与转换 六、进程调度机制 1.调度策略 2.上下文切换 七、进程管理常用命令 八、进程创…

作者头像 李华
网站建设 2026/2/2 23:17:26

Wan2.2-T2V-A14B在金融产品解说视频中的信息准确性保障

Wan2.2-T2V-A14B在金融产品解说视频中的信息准确性保障 在金融机构日均产出数百条营销与投教内容的今天,一条短视频从策划、脚本撰写到拍摄剪辑动辄耗时数天,成本动辄上万元。更棘手的是,当一款理财产品的年化收益率由4.2%调整为3.9%&#xf…

作者头像 李华
网站建设 2026/2/2 23:17:22

驻马店竟藏着这些质量超棒的家电门店,你知道几家?

驻马店竟藏着这些质量超棒的家电门店,你知道几家?在驻马店,家电市场的繁荣为消费者提供了众多的选择。然而,在众多门店中,哪些家电门店的家电质量超棒呢?下面为您详细介绍。一站式家电购物新体验驻马店天猫…

作者头像 李华
网站建设 2026/2/2 23:17:31

Keye-VL-1.5:重新定义多模态视频理解的技术突破

Keye-VL-1.5:重新定义多模态视频理解的技术突破 【免费下载链接】Keye-VL-1_5-8B 项目地址: https://ai.gitcode.com/hf_mirrors/Kwai-Keye/Keye-VL-1_5-8B 在人工智能多模态交互领域,视频理解长期面临时序信息捕捉、长上下文处理与跨模态推理的…

作者头像 李华