news 2026/6/9 10:34:14

计算机基础·cs336·MoE

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
计算机基础·cs336·MoE

MoE 混合专家

核心思想

混合专家模型(Mixture of Experts,MoE)是一种先进的神经网络架构,旨在通过整合多个模型或“专家”的预测来提升整体模型性能。MoE模型的核心思想是将输入数据分配给不同的专家子模型,然后将所有子模型的输出进行合并,以生成最终结果。这种分配可以根据输入数据的特征进行动态调整,确保每个专家处理其最擅长的数据类型或任务方面,从而实现更高效、准确的预测。

优势

  • 模型索然很大,但是推理速度快。例如同样的FLOPs,由于只激活少数专家,实际激活参数量比较低,推理速度比同样参数的密集模型快,而且可以得到更好的结果
  • 训练起来不像密集架构那样全部参数都要训练,只有少数专家激活并参与训练
  • 分布式架构:专家可以分配到不同设备上去。

劣势

  • 理论上分布式,在缺乏分布式节点和计算设备时比较鸡肋
  • 训练不稳定:路由算法往往不可微分,路由算法的学习不稳定。

MoE的基本原理

MoE的架构

  • 多个不同的MLPvs 多个不同的 Transformer头
  • 注意:为了确保参数量不会爆炸,MLP的d_ff通常会大幅度减小,甚至比d_model还小

路由算法

  • 基本分类:为每一个token选专家vs 为每一个专家选token
  • 通常是为每一个token选专家:具体策略可以分类为 随机选择,RL算法,TOPK,哈希法。

TOPK算法

  • 基本思想:将路由器认为是一个简单的MLP,给定token x,映射为专家选择的概率s,选择前K个专家。
  • 将专家计算的结果和选择概率加权求和与原输入残差链接。

路由选择函数的训练目标(损失函数)

  • 核心思想:避免只选择特定专家和设备
  • fif_ifi:统计所有batch/设备中实际选择专家i的比例
  • PiP_iPi:统计所有batch/设备中路由器选择专家i的概率(想选择专家i的比例)
  • 惩罚路由器想选择专家i且实际选择专家i的情况

  • 直接对于softmax分数进行显示调整的方法:
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 8:09:10

jQuery Mobile 表单选择

jQuery Mobile 表单选择 引言 jQuery Mobile 是一款流行的前端框架,它使得开发跨平台移动应用变得简单快捷。在移动应用中,表单是用户与应用交互的主要方式之一。而表单选择(Select)是表单中常见的控件,用于让用户从一系列选项中选择一个或多个值。本文将详细介绍 jQuer…

作者头像 李华
网站建设 2026/6/9 22:36:08

Spring Boot 与数据源的集成

Spring Boot 与数据源的集成源码分析 Spring Boot 是基于 Spring 框架构建的快速开发平台,它提供了一种自动化配置的方式来简化各种常见的开发任务,其中包括数据源的配置和集成。在 Spring Boot 中,数据源的集成不仅仅依赖于 Spring Data&am…

作者头像 李华
网站建设 2026/6/6 13:07:25

Dify 实战:通过 Dify 快速接入 MCP Server

作为一款领先的 LLM 应用开发平台,Dify 原生支持 MCP 协议,让开发者无需安装插件即可轻松对接各类 MCP Server,实现 AI 模型与外部工具的无缝交互。本文将演示如何在 Dify 中快速接入高德地图 MCP Server。 1. 前提条件 已在服务器中部署 D…

作者头像 李华
网站建设 2026/6/9 22:47:14

开题报告 药店药品管理系统

目录 药店药品管理系统概述系统核心功能技术架构数据安全与合规性用户界面设计扩展性与集成应用价值 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 药店药品管理系统概述 药店药品管理系统是一款专为药…

作者头像 李华