news 2026/4/15 15:02:38

【小米拥抱开源】小米MiMo团队开源309B专家混合模型——MiMo-V2-Flash

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【小米拥抱开源】小米MiMo团队开源309B专家混合模型——MiMo-V2-Flash

MiMo-V2-Flash是一款采用专家混合架构(MoE)的语言模型,总参数量达3090亿激活参数量为150亿。该模型专为高速推理和智能体工作流设计,通过创新的混合注意力架构与多令牌预测技术(MTP),在实现顶尖性能的同时显著降低推理成本。

1. 简介

MiMo-V2-Flash在长上下文建模能力和推理效率之间实现了新的平衡。主要特性包括:

  • 混合注意力架构:以5:1的比例交错使用滑动窗口注意力(SWA)和全局注意力(GA),并采用激进的128词元窗口。通过可学习的注意力汇聚偏置,在保持长上下文性能的同时,将KV缓存存储降低近6倍。
  • 多词元预测(MTP):配备轻量级MTP模块(0.33B参数/块),使用密集前馈网络。推理时输出速度提升3倍,并有助于加速强化学习训练中的推演过程。
  • 高效预训练:使用FP8混合精度和原生32k序列长度,在27T词元上完成训练。上下文窗口支持高达256k的长度。
  • 智能体能力:训练后采用多教师策略蒸馏(MOPD)和大规模智能体强化学习,在SWE-Bench和复杂推理任务中表现卓越。

2. 模型下载

模型总参数量激活参数量上下文长度下载
MiMo-V2-Flash-Base309B15B256k🤗 HuggingFace
MiMo-V2-Flash309B15B256k🤗 HuggingFace

[!重要]
我们还开源了3层MTP权重,以促进社区研究。


3. 评估结果

基础模型评估

MiMo-V2-Flash-Base 在标准基准测试中展现出强劲性能,超越了参数量显著更大的模型。

CategoryBenchmarkSetting/LengthMiMo-V2-Flash BaseKimi-K2 BaseDeepSeek-V3.1 BaseDeepSeek-V3.2 Exp Base
Params#Activated / #Total-15B / 309B32B / 1043B37B / 671B37B / 671B
GeneralBBH3-shot88.588.788.288.7
MMLU5-shot86.787.887.487.8
MMLU-Redux5-shot90.690.290.090.4
MMLU-Pro5-shot73.269.258.862.1
DROP3-shot84.783.686.386.6
ARC-Challenge25-shot95.996.295.695.5
HellaSwag10-shot88.594.689.289.4
WinoGrande5-shot83.885.385.985.6
TriviaQA5-shot80.385.183.583.9
GPQA-Diamond5-shot55.148.151.052.0
SuperGPQA5-shot41.144.742.343.6
SimpleQA5-shot20.635.326.327.0
MathGSM8K8-shot92.392.191.491.1
MATH4-shot71.070.262.662.5
AIME 24&252-shot35.331.621.624.8
CodeHumanEval+1-shot70.784.864.667.7
MBPP+3-shot71.473.872.269.8
CRUXEval-I1-shot67.574.062.163.9
CRUXEval-O1-shot79.183.576.474.9
MultiPL-E HumanEval0-shot59.560.545.945.7
MultiPL-E MBPP0-shot56.758.852.550.6
BigCodeBench0-shot70.161.763.062.9
LiveCodeBench v61-shot30.826.324.824.9
SWE-Bench (AgentLess)3-shot30.828.224.89.4*
ChineseC-Eval5-shot87.992.590.091.0
CMMLU5-shot87.490.988.888.9
C-SimpleQA5-shot61.577.670.968.0
MultilingualGlobalMMLU5-shot76.680.781.982.0
INCLUDE5-shot71.475.377.277.2
Long ContextNIAH-Multi32K99.399.899.785.6*
64K99.9100.098.685.9*
128K98.699.597.294.3*
256K96.7---
GSM-Infinite Hard16K37.734.641.550.4
32K33.726.138.845.2
64K31.516.034.732.6
128K29.08.828.725.7

* 表示模型可能无法遵循提示或格式。

训练后模型评估

采用MOPD与智能体强化学习的训练后范式,该模型实现了最先进的推理与智能体性能。

BenchmarkMiMo-V2 FlashKimi-K2 ThinkingDeepSeek-V3.2 ThinkingGemini-3.0 ProClaude Sonnet 4.5GPT-5 High
Reasoning
MMLU-Pro84.984.685.090.188.287.5
GPQA-Diamond83.784.582.491.983.485.7
HLE (no tools)22.123.925.137.513.726.3
AIME 202594.194.593.195.087.094.6
HMMT Feb. 202584.489.492.597.579.288.3
LiveCodeBench-v680.683.183.390.764.084.5
General Writing
Arena-Hard (Hard Prompt)54.171.953.472.663.371.9
Arena-Hard (Creative Writing)86.280.188.893.676.792.2
Long Context
LongBench V260.645.158.465.661.8-
MRCR45.744.255.589.755.4-
Code Agent
SWE-Bench Verified73.471.373.176.277.274.9
SWE-Bench Multilingual71.761.170.2-68.055.3
Terminal-Bench Hard30.530.635.439.033.330.5
Terminal-Bench 2.038.535.746.454.242.835.2
General Agent
BrowseComp45.4-51.4-24.154.9
BrowseComp (w/ Context Manage)58.360.267.659.2--
\(\tau^2\)-Bench80.374.380.385.484.780.2

4. 模型架构

混合滑动窗口注意力

MiMo-V2-Flash通过交替使用局部滑动窗口注意力(SWA)和全局注意力(GA)来解决长上下文的二次方复杂度问题。

  • 配置:采用 \(M=8\) 个混合块堆叠结构。每个块包含 \(N=5\) 个SWA层和1个GA层。
  • 效率:SWA层采用128个词元的窗口大小,显著减少KV缓存占用。
  • 沉没偏置:应用可学习的注意力沉没偏置,确保在激进窗口尺寸下仍保持性能。

轻量级多词元预测(MTP)

不同于传统推测解码技术,我们的MTP模块原生集成于训练和推理流程。

  • 结构:使用稠密前馈网络(替代MoE)和SWA(替代GA),使每模块参数量控制在0.33B。
  • 性能:支持自推测解码,生成速度提升三倍,缓解小批量强化学习训练时的GPU闲置问题。

5. 训练后技术亮点

MiMo-V2-Flash采用创新的蒸馏和强化学习策略,通过精心设计的训练后流程最大化推理和智能体能力。

5.1 多教师同策略蒸馏(MOPD)

我们提出**多教师同策略蒸馏(MOPD)**这一新范式,将知识蒸馏构建为强化学习过程:

  • 密集令牌级指导:不同于依赖稀疏序列级反馈的方法,MOPD利用领域专家模型(教师)在每个令牌位置提供监督
  • 同策略优化:学生模型从自身生成的响应中学习,而非固定数据集。这消除了曝光偏差,确保更小更稳定的梯度更新
  • 内在奖励鲁棒性:奖励源自学生与教师间的分布差异,使该过程天然抵抗奖励破解

5.2 规模化智能体强化学习

我们大幅扩展了智能体训练环境以提升智能水平和泛化能力:

  • 海量代码智能体环境:利用真实GitHub工单创建超10万个可验证任务。自动化流水线维护的Kubernetes集群可运行超1万个并发Pod,环境搭建成功率达70%。
  • 网页开发多模态验证器:针对网页开发任务,采用基于视觉的验证器通过录制视频(非静态截图)评估代码执行,减少视觉幻觉并确保功能正确性。
  • 跨领域泛化能力:实验表明,代码智能体的大规模强化学习训练能有效迁移至数学和通用智能体领域,显著提升相关任务表现。

5.3 先进强化学习基础设施

为支持大规模混合专家模型的高吞吐强化学习训练,我们在SGLang和Megatron-LM基础上实现多项基础设施优化:

  • 轨迹路由回放(R3):解决推理与训练阶段MoE路由数值精度不一致问题。R3复用轨迹阶段的精确专家路由,确保一致性且开销可忽略。
  • 请求级前缀缓存:在多轮智能体训练中缓存先前对话轮的KV状态和路由专家,避免重复计算并保证跨轮采样一致性。
  • 细粒度数据调度器:扩展轨迹引擎以调度细粒度序列(替代微批次),结合部分轨迹执行,显著减少长尾延迟造成的GPU闲置。
  • 工具箱双层管理器:采用Ray执行器池的两层设计处理资源竞争,消除工具执行的冷启动延迟,实现任务逻辑与系统策略解耦。

6. 推理与部署

MiMo-V2-Flash支持FP8混合精度推理,推荐使用SGLang获得最佳性能。

参数建议:采样参数推荐设为temperature=0.8, top_p=0.95

SGLang快速入门

pipinstallsglang# Launch serverpython3 -m sglang.launch_server\--model-path XiaomiMiMo/MiMo-V2-Flash\--served-model-name mimo-v2-flash\--pp-size1\--dp-size2\--enable-dp-attention\--tp-size8\--moe-a2a-backend deepep\--page-size1\--host0.0.0.0\--port9001\--trust-remote-code\--mem-fraction-static0.75\--max-running-requests128\--chunked-prefill-size16384\--reasoning-parser qwen3\--tool-call-parser mimo\--context-length262144\--attention-backend fa3\--speculative-algorithm EAGLE\--speculative-num-steps3\--speculative-eagle-topk1\--speculative-num-draft-tokens4\--enable-mtp# Send requestcurl-i http://localhost:9001/v1/chat/completions\-H'Content-Type:application/json'\-d'{ "messages" : [{ "role": "user", "content": "Nice to meet you MiMo" }], "model": "mimo-v2-flash", "max_tokens": 4096, "temperature": 0.8, "top_p": 0.95, "stream": true, "chat_template_kwargs": { "enable_thinking": true } }'

重要通知

[!IMPORTANT]
在支持多轮工具调用的思考模式下,模型会同时返回reasoning_content字段和tool_calls字段。要继续对话,用户必须在后续每个请求的messages数组中保留所有历史reasoning_content

[!IMPORTANT]
强烈推荐使用以下系统提示语,请从英文和中文版本中选择。

英语

You are MiMo, an AI assistant developed by Xiaomi. Today's date: {date} {week}. Your knowledge cutoff date is December 2024.

中文

你是MiMo(中文名称也是MiMo),是小米公司研发的AI智能助手。 今天的日期:{date} {week},你的知识截止日期是2024年12月。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 15:30:54

EmotiVoice模型镜像下载及本地部署详细教程

EmotiVoice模型镜像下载及本地部署详细教程 在语音交互日益普及的今天,用户对“声音”的要求早已超越了“能听清”这一基本标准。从智能音箱到虚拟主播,从有声书平台到游戏NPC对话系统,大家期待的是富有情感、自然流畅、甚至带有熟悉音色的声…

作者头像 李华
网站建设 2026/4/13 12:39:20

提示工程架构师进阶:Agentic AI创新应用的高级案例分析

提示工程架构师进阶:Agentic AI创新应用的高级案例分析 一、引言:从“生成式热闹”到“行动式落地”的痛点与破局 你是否见过这样的Agentic AI项目? 看似能自动处理任务,实际却在复杂场景下频繁“卡壳”——要么误解用户意图&…

作者头像 李华
网站建设 2026/4/7 9:19:51

OpenFeign 实现请求重试:全方案详解

目录 一、核心概念:重试的适用场景 二、方案 1:OpenFeign 原生重试(基于 Retryer) 1. 原生 Retryer 接口定义 2. 内置重试实现:Default 3. 配置原生重试(两种方式) 方式 1:配置…

作者头像 李华
网站建设 2026/4/10 20:57:23

TEC技术:重塑车载体验的温控革命

一、TEC 技术核心原理与车载适配性TEC(Thermo Electric Cooler,半导体制冷模块)基于帕尔帖效应实现电能与热能的直接转换:当电流通过两种不同半导体材料构成的电偶时,一端吸收热量形成冷端,另一端释放热量形…

作者头像 李华
网站建设 2026/4/11 20:46:10

拒绝复杂!线上业务流程管理:中小团队首选工具推荐

在数字化浪潮下,业务流程管理模式正经历从传统线下到线上的根本性转变。传统业务管理依赖纸质单据、口头沟通和人工流转,早已难以适应现代企业对效率、协同和数据化的需求。而线上业务流程管理通过技术赋能,实现了流程的标准化、可视化和智能…

作者头像 李华
网站建设 2026/4/8 11:38:46

1小时验证创意:用快马快速原型化Windows清理新方案

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 快速开发一个Windows清理工具原型,核心功能:1.可视化扫描动画效果2.按文件类型分类显示可清理内容3.实时预估可释放空间4.撤销清理操作功能。使用Electron框…

作者头像 李华