DeepSeek-R1 技术解析（四）：实验数据全景——R1 到底强在哪，弱在哪-洪萨配资

先看清楚对手是谁

论文在多个基准上做了系统对比，比较对象包括：

DeepSeek-V3：自家的非推理型模型，671B MoE
GPT-4o (2024-05-13)：OpenAI 的非推理型旗舰
Claude-3.5-Sonnet (2024-10-22)：Anthropic 的非推理型模型
OpenAI-o1-mini：o1 的小号版本
OpenAI-o1 (2024-12-17)：推理模型，R1 的主要对标对象

由于中国大陆访问 o1 API 困难，o1 的大部分数据直接引用官方报告。

评估方法和标准模型不太一样。像 GPT-4o、DeepSeek-V3 这种非推理模型，一般用贪心解码（温度=0）来跑基准测试，输出确定性高、重复性低。但推理模型如果也用贪心解码来做长文本推理，会出现较高的重复率，而且不同 checkpoint 之间波动很大。

所以对 R1，论文用了pass@k 评估——温度 0.6，top-p 0.95，对每题采样 k 个回答，然后计算 pass@1（答案不出现在第一个回答里的概率）。AIME 和 GPQA 上 k=64，MATH 和 Codeforces 上 k=16，LiveCodeBench 上 k=8。

pass@1 是从 k 个采样里估算"模型一次就能答对"的概率，不是"top-1 答案对"的概率。公式不复杂：

pass@1 = 1/k × Σ(每道题的 k 个答案里答对的比例)

对 AIME 还额外报告了cons@64（64 个采样做多数投票的结果）。

所有 R1 的输出都限制在最大 32,768 token。

另外，论文做了严格的数据去污染。DeepSeek-V3 基座的知识截止日期是 2024 年 7 月，预训练数据里凡是包含评测题目 10-gram 匹配的文本段全部被过滤掉了。数学领域光是这种去污染就删掉了约 600 万条预训练文本。SFT 和 RL 的数学训练数据只用了 2023 年前的竞赛题，确保训练和评估之间没有重叠。

主流基准上的表现

知识类基准

MMLU、MMLU-Redux、MMLU-Pro 这三个都是百科知识多选题。R1 分别拿了 90.8、92.9、84.0，全都超过 o1 和 GPT-4o。提升的主要来源是 STEM 相关的题目——大规模 RL 训练带来的推理能力，在做理科题时效果最明显。

在 GPQA Diamond（博士生水平的理化生问答）上，R1 拿 71.5%，o1 拿 75.7%，GPT-4o 只有 49.9%。R1 还不及人类博士（参考值约 81%，而且人类博士有网络可以用），但已经甩开了所有非推理模型。

在 FRAMES 上，R1 拿 82.5%，超过 GPT-4o 的 80.5% 和 DeepSeek-V3 的 73.3%。FRAMES 是一个依赖长上下文文档做推理和回答的任务——这里有推理能力的优势在前面的几篇文章里没有特别强调，但 R1 在长文档理解上的表现确实超过了 V3，说明长链推理的能力在这类任务上也能迁移。

数学基准

这是 R1 最强的一块。

AIME 2024：R1 pass@1 拿 79.8%，跟 o1 的 79.2% 持平，cons@64 到 86.7%。GPT-4o 只有 9.3%。DeepSeek-V3 是 39.2%。

MATH-500：R1 拿 97.3%，o1 是 96.4%。

CNMO 2024（中国高中数学联赛）：R1 拿 78.8%，DeepSeek-V3 只有 43.2%。

论文还测试了一批更新鲜的题目来验证 R1 能不能泛化。AIME 2025 在 R1 训练结束后才发布，R1 的 pass@1 是 75%（11.3/15），o1 是 80%（12/15）。再结合 AMC 12 2024 的成绩，R1 的 USAMO 资格分超过了晋级线，放在全美高中生里属于顶尖水平。

另一个细分分析来自 2024 年 93 场数学竞赛的 366 道题。按数学分支来看，R1 在数论（73.4%）和代数（70.9%）上最强，组合数学（26.6%）和多项式（14.9%）偏弱，几何（4.5%）最差。GPT-4o 在这些分支上的表现基本都是 R1 的一半或更少，但同样是几何最弱。

编程基准

LiveCodeBench（竞赛算法题）：R1 pass@1 拿 65.9%，o1 更高到 63.4%（注意这里 o1 的数据需要跟其他对比一起看——原文中 o1 是 63.4%，但 DeepSeek 的表格里 o1 也是 63.4，而 R1 是 65.9，R1 超过了 o1）。GPT-4o 只有 32.9%。

Codeforces：R1 的 elo 评级是 2029，超过 96.3% 的人类选手。o1 是 2061，略高一筹。GPT-4o 只有 759。

SWE-Bench Verified（真实软件工程任务）：R1 是 49.2% 的解决率，o1 是 48.9%，两者接近。Aider-Polyglot 上 R1 是 53.3%，o1 更高到 61.7%。工程类编码任务上 R1 目前还不及 o1。论文里的解释是：软件工程任务的评估时间太长，影响 RL 的训练效率，所以大规模 RL 在这一块做得不多。后续版本会通过软件工程数据的拒绝采样或异步评估来改善。

通用对话基准

AlpacaEval 2.0：R1 的 LC-winrate 是 87.6%，遥遥领先 GPT-4o 的 51.1% 和 DeepSeek-V3 的 70.0%。这个分数意味着 R1 的回复在人类偏好对比里赢了 87.6% 的对照组。

ArenaHard：R1 拿 92.3%，超过 o1-mini 的 92.0%，GPT-4o 是 80.4%。

注意，AlpacaEval 和 ArenaHard 都是偏"用户更喜欢哪种回复"的偏好测试，不是测试"谁更正确"的。R1 在这两项上的高分源自第三和第四阶段加入的通用数据训练——尤其是非推理数据的大规模 SFT 和第四阶段的偏好对齐 RL。

IF-Eval

IF-Eval 测试的是"你能不能严格遵循指令格式"。R1 拿 83.3%，DeepSeek-V3 是 86.1%，GPT-4o 是 84.3%。R1 在这方面反而不如自家的 V3。

这个结果侧面说明了一个 trade-off：推理能力和指令遵循能力之间存在一定程度的张力。大量 RL 训练让模型学会了灵活的长链推理，但这种"灵活"在需要严格遵守格式约束的场景下，反而可能让模型更松散了。

和人类的对比

论文里有一个不太常见但很有意思的比较——把人拉进来一起打分。

AIME 2024：人类选手平均分换算下来约 37.8%（基于所有参赛者），R1 pass@1 是 79.8%，远超人类平均水平。

Codeforces：R1 超过 96.3% 的人类选手。但要注意，Codeforces 上的"人类选手"包括了所有注册用户，大部分是业余爱好者，不能代表顶尖水平。

GPQA Diamond：人类博士（允许使用网络）约 81%，R1 是 71.5%。在这类需要广博知识的任务上，人类专家仍然领先。论文里提到，如果给 R1 也加上网络搜索能力，这个差距可能会缩小很多。

Chatbot Arena 的实际投票排名也反映了人类用户的偏好。到 2025 年 1 月 24 日，R1 在风格控制排行榜上跟 o1 和 Gemini Exp-1206 并列第一。在数学、编程等细分维度的排名上，R1 同样表现出色。

安全评估

总体安全水平

论文在六个安全基准上做了评估，结果是 R1 排在中等偏上水平。和 GPT-4o 的安全水平差不多。

风险控制系统的效果很明显。没有风控系统时，纯 R1 在 HarmBench 上的安全分只有 35.0%。加了风控后，拉到了 96.3%（隐藏推理过程）和 89.3%（显示推理过程）。

风控系统的工作方式是：每轮对话后，用户查询会自动匹配一个预定义的关键词列表，然后用 DeepSeek-V3 做安全审核。审核任务按照一套 11 条的安全标准来判定——涵盖违法活动、歧视偏见、隐私、医疗建议等。

细分类别分析

论文在自建的安全基准上做了更细的分类评估，把安全问题分成了四大类 28 个子类：

歧视与偏见（性别、种族、宗教、外貌等）
违法与犯罪行为（暴力、毒品、色情、网络犯罪等）
危害行为（身体伤害、心理伤害、隐私侵犯等）
道德伦理问题（家庭伦理、学术伦理、职业道德等）

R1 在处理违法和道德伦理问题的场景下表现很好，但在歧视偏见和危害行为场景下属于中等水平。

多语言安全

论文把安全测试集翻译到了 50 种语言，看模型在不同语言上的安全表现。结论是：R1 在加风控系统的情况下，50 种语言的综合安全分（85.9%）接近表现最好的 Claude-3.7-Sonnet（88.3%）。不加风控的情况下跟 GPT-4o 差不多水平。

按语言细分，R1（不加风控）没有出现任何"高危语言"（安全分低于 60 的语言），说明没有明显的语言层面的安全漏洞。

越狱鲁棒性

这块的结论不太乐观。

用 2,232 个越狱模板随机拼接安全测试题，R1 不加风控的情况下，不安全回复率从原来的 25.2% 飙到了 85.9%——几乎所有安全防线都被绕过去了。

加了风控系统之后，不安全率被压到了 4.3%，但拒绝回答率也跟着涨到了 87.3%。也就是说，加了风控的 R1 面对越狱攻击时，大部分时候直接拒绝回答，而不是给出安全且有用的回复。

o1 的情况类似——拒绝率到了 79.8%。相比之下，Claude-3.7-Sonnet 的拒绝率只有 12.1%，说明它在"既要安全、又要尽量回答"的平衡上做得更好。

开源模型（DeepSeek、Qwen）在本地部署时没有风控系统保护，面临的安全挑战比闭源模型更严重。论文的建议是，开发者部署 R1 时最好搭一套类似的审核系统。

推理能力带来的安全新问题

论文专门提了一个值得警惕的现象：推理能力的提升也会增强模型的"危害能力"。

比如，R1 在面对某些越狱攻击时，不仅回答得更快，还提供了一些具有更强"操作性"的内容。以前的模型可能只会泛泛地描述一个概念，R1 的推理能力让它能给出更详细的、步骤更清晰的方案——这就意味着，如果安全防线被突破，R1 可能比非推理模型更危险。

另外，作为开源模型，R1 可以被任何人拿去做微调，这个过程有可能削弱模型内在的安全保护。这是一个目前没有太好解决办法的问题。

推理链长度分析

R1 的推理链长度有一个很明显的特征：根据题目难度自适应调整。

论文用 2024 年竞赛数学题做了分析。R1 在简单题上平均只用不到 7,000 个思考 token，在最难的题上用了超过 18,000 个思考 token。对于"1+1=?"这种极简单的题，R1 通常只用不到 100 个 token。

非推理型模型（比如 GPT-4o）的做法是固定长度输出，平均只用 711 个 token，没有"多想一想"的空间。而且靠多数投票来增加计算量的方法对非推理模型提升非常有限——GPT-4o 在 AIME 上做 64 次采样投票，解决率只从 9.3% 提到 13.4%，仍然远低于 R1 单次推理的 79.8%。

为什么？因为多数投票的每次采样是独立的，模型不会在中间反思或修正。非推理模型缺乏回溯和自我纠错的能力，单纯堆采样次数只是在重复犯同样的错误，token 效率极低。

当然 R1 也不是完美的。它的 Pass@64（79.8% → 86.7%）说明多次采样仍然能提高准确率，意味着有些推理链虽然很长，但最后还是拐进了错误的路径。