news 2026/6/10 1:34:39

OProver:内化检索与修复的Lean 4定理证明框架,五项评测多项领先,代码数据全开源

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OProver:内化检索与修复的Lean 4定理证明框架,五项评测多项领先,代码数据全开源

策略错位:训练与部署之间的核心矛盾

形式化定理证明,一直是LLM公认最严苛的推理试金石,每一步推导都必须通过Lean 4内核的机器验证。近两年,开源社区在MiniF2F、PutnamBench等benchmark上的成绩持续上升,但增长路径越来越趋同:扩模型、扩数据、部署阶段叠加检索和多轮修正。

一个关键问题始终存在,检索信号、编译器反馈和失败修复,大多只在部署时作为外部流程接入,模型在训练阶段并没有系统学习如何利用这些信号,形成了训练与部署之间的“策略错位”。

为应对这一挑战,M - A - P开源社区与南京大学等团队提出OProver—— 一个将检索增强、编译器反馈与多轮修复直接内化到训练策略中的Lean 4定理证明框架。

轻量、可端到端训练

部署阶段:有限轮次修复循环。OProver把定理证明建模为一个有限轮次的修复循环。策略基于目标形式化陈述、检索记忆库中的top - k个编译器验证证明、上一轮证明尝试和Lean 4编译器返回的诊断信息,生成下一次证明尝试。任意一轮通过,整条trajectory即视为成功。

训练阶段:两阶段训练。持续预训练(CPT):在约65B token的混合语料上预训练,其中约30%来自OProofs的Lean 4数据,20%为代码数据(OpenCoder),40%为数学语料(Nemotron - Math - 4 - Plus),10%为长CoT数据;迭代后训练:交替进行agentic proving rollout、SFT(基于round - level修复样本)和RL(基于GSPO算法与难题集)。

关键设计在于:检索结果、失败尝试和编译器反馈不再只是部署阶段临时接入的外部流程,而是被纳入模型要学习的证明策略。

数据与模型的协同进化

OProofs语料库与prover策略在迭代中相互促进。每轮迭代中,当前prover在题库上生成的新验证证明被加入OProofs并索引进检索记忆库;修复trajectory成为下一轮SFT训练样本;尚未解决的”难题组”为下一轮RL提供训练信号。数据、训练与策略,形成持续演化的闭环。

OProofs:面向agentic prover的Lean 4语料。研究团队同步构建并开源了OProofs,包含约1.76M条形式化陈述、6.80M条编译器验证证明。其中4.29M条证明保留了检索到的相关证明上下文,859K条样本包含此前失败尝试的Lean编译器反馈。模型不只看到”最终正确证明是什么”,也能学习”证明失败后,如何利用检索结果和编译器反馈继续修复”。

OProofs由两条构建分支组成。1、公开资源再证明:以NuminaMath - LEAN、Lean - Workbook、Leanabell - Prover - FormalStmt等公开Lean资源为起点,清洗去重后通过agentic proving重新生成并验证证明,同时收集检索上下文、失败尝试和修复轨迹。2、自然语言到形式化:从Common Crawl和GitHub挖掘数学陈述,用CriticLean自动形式化为Lean 4,再通过agentic proving流程生成并验证证明。从覆盖范围看,OProofs横跨多个数学方向:代数60.1%、分析13.7%、数论13.0%、几何6.8%。难度分布以elementary(27.4%)和high - school(48.9%)层级为主,同时包含18.9%的本科水平和4.8%的研究生水平问题。

五项评测三项第一、两项第二

研究团队在MiniF2F、MathOlympiad、ProofNet、ProverBench、PutnamBench五个Lean 4 benchmark上评估,默认报告Pass@32,基于n = 64条独立multi - round rollouts的无偏估计。在open - weight whole - proof prover范围内,OProver - 32B有三项关键结论:1、32B全面超越671B:OProver - 32B在全部五项评测中超越DeepSeek - Prover - V2(671B),在MiniF2F(93.3)、ProverBench(58.2)、PutnamBench(11.3)上同时领先LongCat - Flash - Prover w/ TIR(560B)。2、8B打平32B:OProver - 8B在五个benchmark上全部超越Goedel - Prover - V2 - 32B,参数量少4倍。3、迭代后训练持续增益:MiniF2F - Test上,OProver - 8B从79.5提升至91.8(+12.3),OProver - 32B从84.7提升至93.3(+8.6)。

消融实验:检索与编译器反馈协同贡献

移除多轮compiler feedback会导致最大幅度下降:OProver - 32B在PutnamBench从11.3降至7.0,在ProofNet从33.2降至25.8。进一步移除检索后,性能继续下降至5.9和24.7。这说明提升并非来自简单的best - of - N采样,而是来自检索增强的证明生成与编译器反馈引导的多轮修复之间的协同。其中,Lean编译器反馈提供主要修复信号;检索上下文提供相关证明结构和可参考的证明片段。

测试时扩展:更多推理预算稳定转化

随着推理预算从8增加到256,OProver - 32B在五个benchmark上均呈稳定提升:MiniF2F从87.5至92.8,MathOlympiad从15.5至22.0,ProofNet从25.6至32.8,ProverBench从51.3至56.9,PutnamBench从6.4至11.3。最优预算分配与benchmark难度相关:多数benchmark更偏向增加refinement深度,而PutnamBench这类低成功率难题需在修复深度与并行探索之间取得平衡。

开源与发布

研究团队同步开源了OProver的模型、数据与训练代码,覆盖不同训练阶段checkpoint、OProofs语料和训练pipeline。 • m - a - p/OProver - 32B / OProver - 8B — 最终模型; • m - a - p/OProver - 32B - Base / Round1 — 32B各阶段checkpoint; • m - a - p/OProver - 8B - Base / Round1 / Round2 — 8B各阶段checkpoint; • m - a - p/OProofs — 1.76M statements / 6.80M proofs / 1.06M trajectories。

当然,OProver目前仍主要围绕Lean 4 whole - proof proving展开。后续值得观察的是,这种agentic refinement框架能否迁移到Coq、Isabelle以及工程级formal methods工具,以及更长的数据与模型协同进化周期中性能提升会持续多久。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 1:33:38

【判断整除】信息学奥赛一本通C语言解法(题号1046)

自留or欢迎大佬纠错【题目描述】判断一个数n 能否同时被3和5整除&#xff0c;如果能同时被3和5整除输出YES&#xff0c;否则输出NO。【输入】输入一行&#xff0c;包含一个整数n。&#xff08; -1,000,000 < n < 1,000,000&#xff09;【输出】输出一行&#xff0c;如果能…

作者头像 李华
网站建设 2026/6/10 1:32:24

异地收单不用愁,H5 支付链接一键收款。

H5 动态支付链接对接接口即可快速生成&#xff0c;开发简便&#xff0c;支持个人、企业异地远程收款。用户点开链接直接付款&#xff0c;无需安装 APP&#xff0c;集成简单、交易安全&#xff0c;小额远程收款效率出众。

作者头像 李华
网站建设 2026/6/10 1:21:35

计算机毕业设计之基于python的电影推荐系统的设计和实现

近年来&#xff0c;科技飞速发展&#xff0c;在经济全球化的背景之下&#xff0c;大数据将进一步提高社会综合发展的效率和速度&#xff0c;大数据技术也会涉及到各个领域&#xff0c;而爬虫实现网站数据可视化在网站数据可视化背景下有着无法忽视的作用。管理信息系统的开发是…

作者头像 李华
网站建设 2026/6/10 1:19:58

国产PCB厂家综合实力排行榜评测

2026年6月&#xff0c;随着5G通信、新能源汽车、低空经济及人工智能等新兴产业的蓬勃发展&#xff0c;作为“电子产品之母”的印制电路板&#xff08;PCB&#xff09;行业迎来了新一轮的产业升级与技术变革。在国产替代浪潮与高端制造需求的双重驱动下&#xff0c;PCB厂商的综合…

作者头像 李华
网站建设 2026/6/10 1:18:58

物理信息学习解决不平衡图节点分类问题

1. 不平衡图节点分类的挑战与物理信息学习图神经网络&#xff08;GNNs&#xff09;已经成为处理社交网络、分子发现和推荐系统等复杂网络数据的核心工具。然而&#xff0c;在实际应用中&#xff0c;节点分类任务常常面临严重的类别不平衡问题——少数类样本&#xff08;如罕见疾…

作者头像 李华
网站建设 2026/6/10 1:17:36

影刀RPA新手教程_元素捕获稳定性提升方法

影刀RPA新手教程&#xff1a;网页元素捕获的4种稳定性提升方法——从限制条件到动态变量 元素捕获是影刀RPA最核心的技能。流程跑不起来&#xff0c;十有八九卡在元素上。 页面一改版&#xff0c;元素路径变了&#xff1b;账号一切换&#xff0c;按钮位置动了&#xff1b;数据…

作者头像 李华