news 2026/4/28 13:26:21

那个靠自学封神的DeepSeek,亲手把强化学习踢下了C位

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
那个靠自学封神的DeepSeek,亲手把强化学习踢下了C位

朋友们,事情正在起变化。

去年DeepSeek R1发布的时候,整个AI圈都在为两个字沸腾——强化学习。那篇后来登上《自然》封面的论文,讲了一个近乎浪漫的故事:他们搞了个叫R1-Zero的模型,不给它任何人类解题范例,只告诉它最终答案对不对,让它自己通过大量试错去摸索解题思路。结果这哥们不仅学会了,还在解题过程中自己涌现出了类似人类“顿悟”的自我反思和自我修正能力。

不需要人类手把手教,自己就能“想明白”。这在当时是颠覆性的。全球的研究机构和开发者都疯了,掀起了复现R1的热潮。GRPO(R1用的强化学习算法)成了圈子里最时髦的词。

然后,时间来到2026年4月。DeepSeek V4发布了。

我翻来覆去读了那篇技术报告好几遍,发现一个让人头皮发麻的细节——在V4的最终训练流程里,强化学习消失了。

不是被弱化了,不是退居二线了,是直接从这个环节里被拿掉了。

取而代之的是一套叫OPD的东西,全称On-Policy Distillation,翻译过来叫“在策略蒸馏”。这名字拗口得让人没兴趣点开看,但正是这个东西,暴露了V4真正的野心。

R1的神话,在V4这里画了个句号

先别误会我的意思。RL没有被彻底抛弃。

V4的做法是在训练第一阶段,先为数学、编程、Agent、指令遵循等不同领域,分别独立训练了一批专家模型。这个阶段,RL(GRPO)依然是主力。每个专家模型都靠强化学习把自己那块领域吃透,做到极致。

这就像请一群天才去闭关修行,每人在自己山头苦练一门绝技。

等这批专家全部出关,问题来了:怎么把他们揉成一个全才?

以往的做法大致有两种。一种是直接把权重合并,结果往往是各个领域的能力在参数层面打架,到最后哪一门都不灵。另一种是搞混合RL,让一个模型同时在所有领域数据上做强化学习,各种能力之间的梯度互相撕扯,训练极不稳定,调参调到怀疑人生。

V4团队选的路很绝:

让这批专家当老师,直接去教一个学生。

这个学生就是最终发布的DeepSeek V4模型。它不再像R1那样自己摸黑探索,而是坐在教室里,听十个各怀绝技的老师轮流上课。老师在黑板上写什么,它就学什么——准确地说,是让学生的输出概率分布,尽量靠近老师的输出概率分布。

这就是OPD。

它把最困难的多能力融合问题,从“让模型自己探索”变成了“让模型去学习”。前者是冒险,后者是工程。

那个拗口的OPD,到底在做什么?

报告里给了一个公式,有意思的是,这次他们用的是反向KL散度(reverse KL divergence)来衡量学生和老师之间的差距。反向KL的核心特点是,它倾向于惩罚学生对老师的高概率答案置若罔闻,但对学生自己稳定输出的低概率内容相对宽容。这种特性让最终模型在继承老师核心能力的同时,保留着自己的生成风格。

更关键的是,他们坚持用全词汇表的logit蒸馏,而不是某些同类工作里为了省资源使用的逐Token近似估计。V4团队直言,那种近似估计的梯度方差太大、训练不稳定,在多专家融合时风险不可控。

为了落地这件事,他们在工程上做了大量外人看不到的脏活累活:所有老师权重存进集中式分布式存储、只缓存老师最后一层隐藏状态而不缓存完整logits、按老师索引对训练样本排序以降低显存占用……这些东西技术报告里一笔带过,但对于真正做大模型训练的人来说,看看那背后对极致效率的追求吧。

从“探索”到“融合”,哲学变了

R1时代的哲学是探索。给模型一个目标,让它自己去试错,去碰壁,去在黑暗中找到那条通往正确答案的路。这条路走通了,我们惊叹于模型涌现出来的能力。

V4时代的哲学是融合。先把探索的代价,限定在可控的单一领域专家模型内部。然后把复杂的多能力整合,交给更稳定、更可控的蒸馏技术。

这不是技术退步,是另一种维度的成熟。

想想看,当模型能力越来越强、需要覆盖的领域越来越广,直接在大模型上做端到端RL的成本和风险是指数级上升的。而“分领域专才+统一蒸馏”这条路,可拆分、可迭代、可调试——这些在软件工程领域早被证明极其重要的品质,正在大模型训练中慢慢变成刚需。

百万Token之外,真正值得关注的东西

V4发布后,大多数人的注意力被“100万Token上下文”“推理计算量降到V3.2的27%”这些数字吸走了。这些当然值得兴奋,但它们属于技术参数的线性进步——虽然极其惊艳,却在意料之中。

而OPD替代RL成为最终模型训练的主力,代表的是一种方法和哲学的转变。

这大概也是DeepSeek这家公司有意思的地方。R1靠强化学习封神,V4却在最终阶段亲手把它从C位踢到了替补席。他们好像对“自己曾经创造的神话”没什么执念,该换的时候,毫不留恋。

搞研究需要浪漫,搞工程需要务实。

V4的报告,把这两件事分得很清楚。强化学习依然在——它只是去了它更该待的地方,专门负责培养领域专家。而最终那个站在台前的统一模型,是靠蒸馏学出来的,不是靠自己摸索出来的。

这或许才是V4最被低估的王炸。不是某一个技术参数有多高,而是他们想明白了一件事:当模型走到万亿参数这个量级,把不同专家的本事安全、高效、稳定地融合在一起,可能比从头造一个全知全能的神,重要得多。

所以,你怎么看这件事?是觉得RL被边缘化了很可惜,还是觉得这种“专才+蒸馏”的路才是未来?欢迎在评论区聊聊。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/28 13:22:31

如何快速优化Windows 11:终极系统清理与隐私保护完整指南

如何快速优化Windows 11:终极系统清理与隐私保护完整指南 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and…

作者头像 李华
网站建设 2026/4/28 13:12:47

灰色综合评价实战:从指标选取到权重确定,一次讲清避坑要点

灰色综合评价实战:从指标选取到权重确定,一次讲清避坑要点 在复杂决策场景中,当数据不完整或信息模糊时,传统统计方法往往束手无策。灰色系统理论提供的综合评价方法,正成为产品评估、供应商筛选、绩效管理等场景的秘密…

作者头像 李华
网站建设 2026/4/28 13:12:07

2025届学术党必备的十大AI论文助手推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek AI写作工具是借助自然语言处理技术还有深度学习算法所构建而成的智能辅助系统,该…

作者头像 李华
网站建设 2026/4/28 13:11:58

清华PPT模板终极指南:三步打造专业演示文稿,告别设计烦恼

清华PPT模板终极指南:三步打造专业演示文稿,告别设计烦恼 【免费下载链接】THU-PPT-Theme 清华主题PPT模板 项目地址: https://gitcode.com/gh_mirrors/th/THU-PPT-Theme 还在为毕业答辩、学术汇报的PPT设计发愁吗?每次打开PowerPoint…

作者头像 李华
网站建设 2026/4/28 13:11:04

GC-Net 网络结构

双目视差估计网络GC-Net 简单记录一下用网络进行双目视差估计的开山之作,GC-Net,出自ICCV 2017 论文《GC-Net:End-to-End Learning of Geometry and Context for Deep Stereo Regression》。 对于双目图像,极线对齐后可以利用对极…

作者头像 李华
网站建设 2026/4/28 13:11:01

网络安全工程师,看这一篇就够了!

网络安全工程师,看这一篇就够了! 随着互联网的发展和大数据时代的到来, 网络已经日渐深入到 我们生活、工作中的方方面面, 社会信息化和信息网络化, 突破了应用信息在时间和空间上的障碍, 使信息的价…

作者头像 李华