news 2026/6/25 15:19:13

DeepSeek-R1 技术解析(四):实验数据全景——R1 到底强在哪,弱在哪

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek-R1 技术解析(四):实验数据全景——R1 到底强在哪,弱在哪

先看清楚对手是谁

论文在多个基准上做了系统对比,比较对象包括:

  • DeepSeek-V3:自家的非推理型模型,671B MoE
  • GPT-4o (2024-05-13):OpenAI 的非推理型旗舰
  • Claude-3.5-Sonnet (2024-10-22):Anthropic 的非推理型模型
  • OpenAI-o1-mini:o1 的小号版本
  • OpenAI-o1 (2024-12-17):推理模型,R1 的主要对标对象

由于中国大陆访问 o1 API 困难,o1 的大部分数据直接引用官方报告。

评估方法和标准模型不太一样。像 GPT-4o、DeepSeek-V3 这种非推理模型,一般用贪心解码(温度=0)来跑基准测试,输出确定性高、重复性低。但推理模型如果也用贪心解码来做长文本推理,会出现较高的重复率,而且不同 checkpoint 之间波动很大。

所以对 R1,论文用了pass@k 评估——温度 0.6,top-p 0.95,对每题采样 k 个回答,然后计算 pass@1(答案不出现在第一个回答里的概率)。AIME 和 GPQA 上 k=64,MATH 和 Codeforces 上 k=16,LiveCodeBench 上 k=8。

pass@1 是从 k 个采样里估算"模型一次就能答对"的概率,不是"top-1 答案对"的概率。公式不复杂:

pass@1 = 1/k × Σ(每道题的 k 个答案里答对的比例)

对 AIME 还额外报告了cons@64(64 个采样做多数投票的结果)。

所有 R1 的输出都限制在最大 32,768 token。

另外,论文做了严格的数据去污染。DeepSeek-V3 基座的知识截止日期是 2024 年 7 月,预训练数据里凡是包含评测题目 10-gram 匹配的文本段全部被过滤掉了。数学领域光是这种去污染就删掉了约 600 万条预训练文本。SFT 和 RL 的数学训练数据只用了 2023 年前的竞赛题,确保训练和评估之间没有重叠。

主流基准上的表现

知识类基准

MMLU、MMLU-Redux、MMLU-Pro 这三个都是百科知识多选题。R1 分别拿了 90.8、92.9、84.0,全都超过 o1 和 GPT-4o。提升的主要来源是 STEM 相关的题目——大规模 RL 训练带来的推理能力,在做理科题时效果最明显。

在 GPQA Diamond(博士生水平的理化生问答)上,R1 拿 71.5%,o1 拿 75.7%,GPT-4o 只有 49.9%。R1 还不及人类博士(参考值约 81%,而且人类博士有网络可以用),但已经甩开了所有非推理模型。

在 FRAMES 上,R1 拿 82.5%,超过 GPT-4o 的 80.5% 和 DeepSeek-V3 的 73.3%。FRAMES 是一个依赖长上下文文档做推理和回答的任务——这里有推理能力的优势在前面的几篇文章里没有特别强调,但 R1 在长文档理解上的表现确实超过了 V3,说明长链推理的能力在这类任务上也能迁移。

数学基准

这是 R1 最强的一块。

AIME 2024:R1 pass@1 拿 79.8%,跟 o1 的 79.2% 持平,cons@64 到 86.7%。GPT-4o 只有 9.3%。DeepSeek-V3 是 39.2%。

MATH-500:R1 拿 97.3%,o1 是 96.4%。

CNMO 2024(中国高中数学联赛):R1 拿 78.8%,DeepSeek-V3 只有 43.2%。

论文还测试了一批更新鲜的题目来验证 R1 能不能泛化。AIME 2025 在 R1 训练结束后才发布,R1 的 pass@1 是 75%(11.3/15),o1 是 80%(12/15)。再结合 AMC 12 2024 的成绩,R1 的 USAMO 资格分超过了晋级线,放在全美高中生里属于顶尖水平。

另一个细分分析来自 2024 年 93 场数学竞赛的 366 道题。按数学分支来看,R1 在数论(73.4%)和代数(70.9%)上最强,组合数学(26.6%)和多项式(14.9%)偏弱,几何(4.5%)最差。GPT-4o 在这些分支上的表现基本都是 R1 的一半或更少,但同样是几何最弱。

编程基准

LiveCodeBench(竞赛算法题):R1 pass@1 拿 65.9%,o1 更高到 63.4%(注意这里 o1 的数据需要跟其他对比一起看——原文中 o1 是 63.4%,但 DeepSeek 的表格里 o1 也是 63.4,而 R1 是 65.9,R1 超过了 o1)。GPT-4o 只有 32.9%。

Codeforces:R1 的 elo 评级是 2029,超过 96.3% 的人类选手。o1 是 2061,略高一筹。GPT-4o 只有 759。

SWE-Bench Verified(真实软件工程任务):R1 是 49.2% 的解决率,o1 是 48.9%,两者接近。Aider-Polyglot 上 R1 是 53.3%,o1 更高到 61.7%。工程类编码任务上 R1 目前还不及 o1。论文里的解释是:软件工程任务的评估时间太长,影响 RL 的训练效率,所以大规模 RL 在这一块做得不多。后续版本会通过软件工程数据的拒绝采样或异步评估来改善。

通用对话基准

AlpacaEval 2.0:R1 的 LC-winrate 是 87.6%,遥遥领先 GPT-4o 的 51.1% 和 DeepSeek-V3 的 70.0%。这个分数意味着 R1 的回复在人类偏好对比里赢了 87.6% 的对照组。

ArenaHard:R1 拿 92.3%,超过 o1-mini 的 92.0%,GPT-4o 是 80.4%。

注意,AlpacaEval 和 ArenaHard 都是偏"用户更喜欢哪种回复"的偏好测试,不是测试"谁更正确"的。R1 在这两项上的高分源自第三和第四阶段加入的通用数据训练——尤其是非推理数据的大规模 SFT 和第四阶段的偏好对齐 RL。

IF-Eval

IF-Eval 测试的是"你能不能严格遵循指令格式"。R1 拿 83.3%,DeepSeek-V3 是 86.1%,GPT-4o 是 84.3%。R1 在这方面反而不如自家的 V3。

这个结果侧面说明了一个 trade-off:推理能力和指令遵循能力之间存在一定程度的张力。大量 RL 训练让模型学会了灵活的长链推理,但这种"灵活"在需要严格遵守格式约束的场景下,反而可能让模型更松散了。

和人类的对比

论文里有一个不太常见但很有意思的比较——把人拉进来一起打分。

AIME 2024:人类选手平均分换算下来约 37.8%(基于所有参赛者),R1 pass@1 是 79.8%,远超人类平均水平。

Codeforces:R1 超过 96.3% 的人类选手。但要注意,Codeforces 上的"人类选手"包括了所有注册用户,大部分是业余爱好者,不能代表顶尖水平。

GPQA Diamond:人类博士(允许使用网络)约 81%,R1 是 71.5%。在这类需要广博知识的任务上,人类专家仍然领先。论文里提到,如果给 R1 也加上网络搜索能力,这个差距可能会缩小很多。

Chatbot Arena 的实际投票排名也反映了人类用户的偏好。到 2025 年 1 月 24 日,R1 在风格控制排行榜上跟 o1 和 Gemini Exp-1206 并列第一。在数学、编程等细分维度的排名上,R1 同样表现出色。

安全评估

总体安全水平

论文在六个安全基准上做了评估,结果是 R1 排在中等偏上水平。和 GPT-4o 的安全水平差不多。

风险控制系统的效果很明显。没有风控系统时,纯 R1 在 HarmBench 上的安全分只有 35.0%。加了风控后,拉到了 96.3%(隐藏推理过程)和 89.3%(显示推理过程)。

风控系统的工作方式是:每轮对话后,用户查询会自动匹配一个预定义的关键词列表,然后用 DeepSeek-V3 做安全审核。审核任务按照一套 11 条的安全标准来判定——涵盖违法活动、歧视偏见、隐私、医疗建议等。

细分类别分析

论文在自建的安全基准上做了更细的分类评估,把安全问题分成了四大类 28 个子类:

  • 歧视与偏见(性别、种族、宗教、外貌等)
  • 违法与犯罪行为(暴力、毒品、色情、网络犯罪等)
  • 危害行为(身体伤害、心理伤害、隐私侵犯等)
  • 道德伦理问题(家庭伦理、学术伦理、职业道德等)

R1 在处理违法和道德伦理问题的场景下表现很好,但在歧视偏见和危害行为场景下属于中等水平。

多语言安全

论文把安全测试集翻译到了 50 种语言,看模型在不同语言上的安全表现。结论是:R1 在加风控系统的情况下,50 种语言的综合安全分(85.9%)接近表现最好的 Claude-3.7-Sonnet(88.3%)。不加风控的情况下跟 GPT-4o 差不多水平。

按语言细分,R1(不加风控)没有出现任何"高危语言"(安全分低于 60 的语言),说明没有明显的语言层面的安全漏洞。

越狱鲁棒性

这块的结论不太乐观。

用 2,232 个越狱模板随机拼接安全测试题,R1 不加风控的情况下,不安全回复率从原来的 25.2% 飙到了 85.9%——几乎所有安全防线都被绕过去了。

加了风控系统之后,不安全率被压到了 4.3%,但拒绝回答率也跟着涨到了 87.3%。也就是说,加了风控的 R1 面对越狱攻击时,大部分时候直接拒绝回答,而不是给出安全且有用的回复。

o1 的情况类似——拒绝率到了 79.8%。相比之下,Claude-3.7-Sonnet 的拒绝率只有 12.1%,说明它在"既要安全、又要尽量回答"的平衡上做得更好。

开源模型(DeepSeek、Qwen)在本地部署时没有风控系统保护,面临的安全挑战比闭源模型更严重。论文的建议是,开发者部署 R1 时最好搭一套类似的审核系统。

推理能力带来的安全新问题

论文专门提了一个值得警惕的现象:推理能力的提升也会增强模型的"危害能力"

比如,R1 在面对某些越狱攻击时,不仅回答得更快,还提供了一些具有更强"操作性"的内容。以前的模型可能只会泛泛地描述一个概念,R1 的推理能力让它能给出更详细的、步骤更清晰的方案——这就意味着,如果安全防线被突破,R1 可能比非推理模型更危险。

另外,作为开源模型,R1 可以被任何人拿去做微调,这个过程有可能削弱模型内在的安全保护。这是一个目前没有太好解决办法的问题。

推理链长度分析

R1 的推理链长度有一个很明显的特征:根据题目难度自适应调整。

论文用 2024 年竞赛数学题做了分析。R1 在简单题上平均只用不到 7,000 个思考 token,在最难的题上用了超过 18,000 个思考 token。对于"1+1=?"这种极简单的题,R1 通常只用不到 100 个 token。

非推理型模型(比如 GPT-4o)的做法是固定长度输出,平均只用 711 个 token,没有"多想一想"的空间。而且靠多数投票来增加计算量的方法对非推理模型提升非常有限——GPT-4o 在 AIME 上做 64 次采样投票,解决率只从 9.3% 提到 13.4%,仍然远低于 R1 单次推理的 79.8%。

为什么?因为多数投票的每次采样是独立的,模型不会在中间反思或修正。非推理模型缺乏回溯和自我纠错的能力,单纯堆采样次数只是在重复犯同样的错误,token 效率极低。

当然 R1 也不是完美的。它的 Pass@64(79.8% → 86.7%)说明多次采样仍然能提高准确率,意味着有些推理链虽然很长,但最后还是拐进了错误的路径。

小结

DeepSeek-R1 在各种基准上的数据,可以概括成以下几条:

在数学和竞赛编程上,R1 和 o1 处于同一梯队,远超所有非推理模型。在通用偏好对话上,R1 的 AlpacaEval 和 ArenaHard 分数领先 GPT-4o 很大一截。在软件工程任务上,R1 略弱于 o1。在指令遵循上,R1 反而不如自己的基座模型 DeepSeek-V3。

安全性上,R1 处于中等偏上水平,加风控系统后效果明显,但面对越狱攻击时严重依赖拒绝策略。多语言安全表现均衡,没有明显漏洞。

最核心的能力特征——自适应推理链长度——是 R1 区别于非推理模型的根本:简单的题少想,难的题多想,这种动态分配计算资源的机制,是传统模型做不到的。

下一篇是最后一篇,讲两个重要话题:一是怎么把大模型的推理能力蒸馏到小模型上,让 1.5B 的模型也能做推理;二是整篇论文的核心启示——哪些做法真的有效,哪些尝试失败了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 15:16:31

Bookmark Studio:在 Visual Studio 中实现书签功能升级

Visual Studio 中的书签一直是一项简洁且可靠的功能。许多开发者会经常使用它,多年来我们也持续收到这些用户的反馈。书签固然实用,但仍存在一些核心短板,使其无法发挥应有的效用与价值。导航曾是最大的痛点之一。您可以在书签之间切换浏览&a…

作者头像 李华
网站建设 2026/6/25 15:15:23

树莓派3 config.txt硬件初始化全解析:从黑屏到工业级稳定运行

1. 项目概述:树莓派3的config.txt不是“配置文件”,而是硬件启动总控开关你刚拿到一块树莓派3,刷好Raspberry Pi OS,插上显示器、键盘,通电——结果屏幕一片黑,或者只亮LOGO不进系统;又或者USB设…

作者头像 李华
网站建设 2026/6/25 15:14:38

2025 AI工程师实操路线图:从零构建RAG与多模态工业系统

1. 这不是“速成课”,而是一份能让你在2025年真正拿到AI岗位Offer的实操路线图 我带过37个从零起步转行AI的学员,也帮12家中小企业的技术团队做过LLM落地咨询。去年底,有位做嵌入式开发十年的工程师找到我,说他刷了三个月的吴恩达…

作者头像 李华
网站建设 2026/6/25 15:12:12

FlicFlac:探索Windows音频格式转换的轻量级解决方案

FlicFlac:探索Windows音频格式转换的轻量级解决方案 【免费下载链接】FlicFlac Tiny portable audio converter for Windows (WAV FLAC MP3 OGG APE M4A AAC) 项目地址: https://gitcode.com/gh_mirrors/fl/FlicFlac 在数字音频处理的世界里,格式…

作者头像 李华
网站建设 2026/6/25 15:08:26

微信防撤回逆向工程:从Hook原理到Frida脚本实战

1. 项目概述与核心价值最近在折腾一个挺有意思的东西,就是怎么把微信的防撤回功能给彻底搞定。你可能也遇到过,群里或者私聊里,别人撤回了条消息,你这边就只留下个“对方已撤回一条消息”的提示,心里跟猫抓似的&#x…

作者头像 李华