那个靠自学封神的DeepSeek，亲手把强化学习踢下了C位-洪萨配资

朋友们，事情正在起变化。

去年DeepSeek R1发布的时候，整个AI圈都在为两个字沸腾——强化学习。那篇后来登上《自然》封面的论文，讲了一个近乎浪漫的故事：他们搞了个叫R1-Zero的模型，不给它任何人类解题范例，只告诉它最终答案对不对，让它自己通过大量试错去摸索解题思路。结果这哥们不仅学会了，还在解题过程中自己涌现出了类似人类“顿悟”的自我反思和自我修正能力。

不需要人类手把手教，自己就能“想明白”。这在当时是颠覆性的。全球的研究机构和开发者都疯了，掀起了复现R1的热潮。GRPO（R1用的强化学习算法）成了圈子里最时髦的词。

然后，时间来到2026年4月。DeepSeek V4发布了。

我翻来覆去读了那篇技术报告好几遍，发现一个让人头皮发麻的细节——在V4的最终训练流程里，强化学习消失了。

不是被弱化了，不是退居二线了，是直接从这个环节里被拿掉了。

取而代之的是一套叫OPD的东西，全称On-Policy Distillation，翻译过来叫“在策略蒸馏”。这名字拗口得让人没兴趣点开看，但正是这个东西，暴露了V4真正的野心。

R1的神话，在V4这里画了个句号

先别误会我的意思。RL没有被彻底抛弃。

V4的做法是在训练第一阶段，先为数学、编程、Agent、指令遵循等不同领域，分别独立训练了一批专家模型。这个阶段，RL（GRPO）依然是主力。每个专家模型都靠强化学习把自己那块领域吃透，做到极致。

这就像请一群天才去闭关修行，每人在自己山头苦练一门绝技。

等这批专家全部出关，问题来了：怎么把他们揉成一个全才？

以往的做法大致有两种。一种是直接把权重合并，结果往往是各个领域的能力在参数层面打架，到最后哪一门都不灵。另一种是搞混合RL，让一个模型同时在所有领域数据上做强化学习，各种能力之间的梯度互相撕扯，训练极不稳定，调参调到怀疑人生。

V4团队选的路很绝：

让这批专家当老师，直接去教一个学生。

这个学生就是最终发布的DeepSeek V4模型。它不再像R1那样自己摸黑探索，而是坐在教室里，听十个各怀绝技的老师轮流上课。老师在黑板上写什么，它就学什么——准确地说，是让学生的输出概率分布，尽量靠近老师的输出概率分布。

这就是OPD。

它把最困难的多能力融合问题，从“让模型自己探索”变成了“让模型去学习”。前者是冒险，后者是工程。

那个拗口的OPD，到底在做什么？

报告里给了一个公式，有意思的是，这次他们用的是反向KL散度（reverse KL divergence）来衡量学生和老师之间的差距。反向KL的核心特点是，它倾向于惩罚学生对老师的高概率答案置若罔闻，但对学生自己稳定输出的低概率内容相对宽容。这种特性让最终模型在继承老师核心能力的同时，保留着自己的生成风格。

更关键的是，他们坚持用全词汇表的logit蒸馏，而不是某些同类工作里为了省资源使用的逐Token近似估计。V4团队直言，那种近似估计的梯度方差太大、训练不稳定，在多专家融合时风险不可控。

为了落地这件事，他们在工程上做了大量外人看不到的脏活累活：所有老师权重存进集中式分布式存储、只缓存老师最后一层隐藏状态而不缓存完整logits、按老师索引对训练样本排序以降低显存占用……这些东西技术报告里一笔带过，但对于真正做大模型训练的人来说，看看那背后对极致效率的追求吧。

从“探索”到“融合”，哲学变了

R1时代的哲学是探索。给模型一个目标，让它自己去试错，去碰壁，去在黑暗中找到那条通往正确答案的路。这条路走通了，我们惊叹于模型涌现出来的能力。

V4时代的哲学是融合。先把探索的代价，限定在可控的单一领域专家模型内部。然后把复杂的多能力整合，交给更稳定、更可控的蒸馏技术。

这不是技术退步，是另一种维度的成熟。

想想看，当模型能力越来越强、需要覆盖的领域越来越广，直接在大模型上做端到端RL的成本和风险是指数级上升的。而“分领域专才+统一蒸馏”这条路，可拆分、可迭代、可调试——这些在软件工程领域早被证明极其重要的品质，正在大模型训练中慢慢变成刚需。

百万Token之外，真正值得关注的东西

V4发布后，大多数人的注意力被“100万Token上下文”“推理计算量降到V3.2的27%”这些数字吸走了。这些当然值得兴奋，但它们属于技术参数的线性进步——虽然极其惊艳，却在意料之中。

而OPD替代RL成为最终模型训练的主力，代表的是一种方法和哲学的转变。

这大概也是DeepSeek这家公司有意思的地方。R1靠强化学习封神，V4却在最终阶段亲手把它从C位踢到了替补席。他们好像对“自己曾经创造的神话”没什么执念，该换的时候，毫不留恋。

搞研究需要浪漫，搞工程需要务实。

V4的报告，把这两件事分得很清楚。强化学习依然在——它只是去了它更该待的地方，专门负责培养领域专家。而最终那个站在台前的统一模型，是靠蒸馏学出来的，不是靠自己摸索出来的。

这或许才是V4最被低估的王炸。不是某一个技术参数有多高，而是他们想明白了一件事：当模型走到万亿参数这个量级，把不同专家的本事安全、高效、稳定地融合在一起，可能比从头造一个全知全能的神，重要得多。

所以，你怎么看这件事？是觉得RL被边缘化了很可惜，还是觉得这种“专才+蒸馏”的路才是未来？欢迎在评论区聊聊。

那个靠自学封神的DeepSeek，亲手把强化学习踢下了C位

R1的神话，在V4这里画了个句号

那个拗口的OPD，到底在做什么？

从“探索”到“融合”，哲学变了

百万Token之外，真正值得关注的东西

如何快速优化Windows 11：终极系统清理与隐私保护完整指南

灰色综合评价实战：从指标选取到权重确定，一次讲清避坑要点

2025届学术党必备的十大AI论文助手推荐

清华PPT模板终极指南：三步打造专业演示文稿，告别设计烦恼

GC-Net 网络结构

网络安全工程师，看这一篇就够了！