⚙️ 工程深度:L4 · 生产级 | 📖 预计阅读:18 分钟
一句话理解:语义没成形就让路由器"学习",等于让新兵在没看过地图的情况下指挥作战——先哈希定位,再学习分工。
🎯 本文产出
- 哈希 / 学习 / 混合三种路由的核心实现(可直接运行,含预期输出)
- 哈希层数选择速查表(按模型规模,可直接查表决策)
- 混合路由训练动态全景图(Mermaid,可嵌入设计文档)
核心结论(先读这里)
混合路由不是"两种路由的简单拼接",而是一个基于训练动力学的分阶段策略:
前 3 层哈希,不是因为哈希更快(两者计算量差异微乎其微),而是因为这些层的语义还没成形——在噪声上做学习,学到的是噪声,不是结构。
统一决策框架:
| 条件 | 推荐路由 | 核心理由 |
|---|---|---|
| 模型前 1-3 层 | 哈希路由 | 语义未成形,学习路由梯度 ≈ 噪声 |
| 第 4 层起 + 训练稳定期 | 学习路由 | 语义成形,专家可真正专业化 |
| 小模型(< 1B) | 哈希 1-2 层 + 学习 | 层数少,语义成形更快 |
| 大模型(> 10B) | 哈希 3-5 层 + 学习 | 语义成形慢,热身期更长 |
| 微调已有模型 | 纯学习路由 | 预训练权重已稳定,不需要热身 |
一、三个致命问题:为什么路由比想象中难
MoE 的逻辑很简单:每个 token 只激活部分专家,用少量计算换取大模型容量。但"谁该去哪个专家"这个路由问题,藏着三个环环相扣的陷阱。