小米今天凌晨发了四个模型:MiMo-V2.5、V2.5-Pro、V2.5-TTS Series、V2.5-ASR,还顺手升级了 Token Plan。
说实话,这次不像是挤牙膏,更像是一口气把能放的全都放出来了。
凌晨群里还挺热闹,我是亲历者
先交代一下背景——我是在 MiMo V2 公测时就加了用户群的那种"答住"。今天凌晨三点多,运营在群里发了一条上线通告,我本来只是想看看有没有什么新活,结果一用就睡不着了。
这个感受是真实的:不是那种"评测视频里看起来很厉害"的厉害,是真的上手跑任务的时候,能感觉到"这个模型跟以前那些不太一样"的那种感觉。后来看群里大家的状态,基本都是"睡什么睡起来卷"——说明不是我一个人上头。
V2.5 到底什么水平?
先说能力:多模态是原生支持的,不是后期拼接,图像、音频、视频一个模型搞定。Video-MME 87.7,Gemini 3 Pro 是 88.4,基本并排了。Agent 能力实测,Claw-Eval 通用子集 62.3,多模态子集 23.8,跟 Claude Sonnet 4.6 持平,离 Claude Opus 只差一个点。放在半年前这个成绩是想都不敢想的那种,现在真的追上了。
然后是 Token 效率。官方说相同 Agent 基准分下,MiMo-V2.5 比 Muse Spark 省 50% Token,V2.5-Pro 比 Kimi K2.6 省 42%。省 Token 就是省钱,这才是对开发者真正有意义的指标。
那个 4.3 小时写完北大编译原理大作业的故事
发布会上最让人记住的是这个细节:北大本科生做《编译原理》Rust 编译器项目,正常周期是几周,V2.5-Pro 用了 4.3 小时,调用 672 次工具,隐藏测试 233/233 满分。
我的反应就是两个字:离谱。这个强度已经不是"AI 辅助"了,是 AI 替你把活干了。
Token Plan 的坑,这次填上了
之前有俩大坑:100 万上下文额外收 4 倍率,256k 和 100 万分开算计费。这次统一了——V2.5 每 token 1 credit,V2.5-Pro 每 token 2 credit,没有乱七八糟的倍率了。还加了夜间优惠和自动续费,就是告诉开发者:你要跑长任务,晚上跑,便宜。
之前那个 4 倍率说实话有点离谱,这次改了我觉得是在认真做生态。
我的判断
真的做对了的事:多模态能力真的从"凑合用"变成"能打了";Token 效率领先意味着 API 成本能降一半;全球开源,对开发者有吸引力;Lite 档 ¥39/月 门槛很低。
还需要观察:评测分数再好看,生产环境稳定性才是留住人的关键;跟 Claude Opus、GPT-5.4 正面较量这个说法,需要更多独立第三方验证;工具链成熟度还在追。
总结一句:
小米这次不是在参与竞争,是在重新定义竞争维度——把 Token 效率和多模态原生能力打包成一套,逼着别人跟着卷。不只是自己卷,还让对手也不得不卷,这是比较狠的地方。