news 2026/4/22 22:31:39

Goedel-Prover-V2:通过自我修正和逐步数据合成实现高效自动定理证明的新发展

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Goedel-Prover-V2:通过自我修正和逐步数据合成实现高效自动定理证明的新发展

概述

本文提出了自动定理证明(ATP)的新底层模型 Goedel-Prover-V2。

以往的研究需要超大模型(数百个 B 级参数)和庞大的推理计算,这限制了开源模型的性能。

因此,作者引入了一种新颖的学习方法和数据生成策略,以实现高效和高性能的定理证明。

具体来说,他们采用了 “脚手架式数据合成”(生成难度逐步调整的合成问题)、“验证者指导下的自我修正”(利用精益编译器的反馈)和 “模型平均”(保持输出多样性)。平均化 "来保持输出的多样性。

结果,即使只有 32B 大小的模型,也超越了传统的 671B 模型,成功解决了
MiniF2F 基准中的 88.1%(自校正后为 90.4%)和 PutnamBench 中的 86 个问题,为开源模型设定了新的高标准。开源建模达到了新的最高水平。

这表明,无需依赖庞大的计算资源,就能高效地进行高级数学推理。

建议的方法

拟议方法的核心是将 "自我修正 "和 "逐步数据合成 "与使用长思维链的定理证明融合在一起。

首先,"验证器指导下的自我修正 "是一种机制,模型生成的证明通过精益编译器运行,精益编译器分析错误信息并生成修改版本。
这样,用户就能从错误中吸取教训,完成证明,就像人类改进证明一样。

接下来,脚手架数据合成会合成未解决的子问题和从难题的失败尝试中获得的更简单的变体,为模型提供高效的学习信号。
这样,就能利用难度等级进行有效的训练。

此外,还引入了模型平均法,对不同训练阶段获得的模型进行加权平均,以提高性能,同时防止遗漏变体。
最后,我们设计了一个连贯的学习管道,将 SFT(监督微调)、RL(强化学习)和模型平均化结合在一起,从而产生了高效、稳健的定理证明模型。

实验

主要在 MiniF2F 和 PutnamBench 上进行了评估,结果证实,所提出模型的性能明显优于传统方法。

在MiniF2F(高中数学-国际数学奥林匹克水平)Goedel-Prover-V2-32Bはpass@32で88.1%,自校正模式达到90.4%,超过了DeepSeek-Prover-V2-671B。
此外,在 PutnamBench(大学数学竞赛题)中,它成功解决了 86 道题,比之前的 47 道题有了显著提高。

甚至在 MiniF2F 中,8B 模型的表现也优于 671B 模型,这有力地证明了它的效率。

此外,自我修正的效果也得到了量化证明,在 pass@32 的基础上平均提高了 2 分。

缩放分析也证实了 “高样本效率”,即只需生成少量样本即可实现高精度。

这些实验结果表明,即使对于小规模的模型,所提出的方法也能实现最先进的定理证明能力,支持其作为未来数学人工智能研究的基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 4:29:24

RabbitMQ 集群常见“坑”全攻略:从根本原因到救命排查技巧

RabbitMQ 集群常见“坑”全攻略:从根本原因到救命排查技巧 RabbitMQ 集群是保障消息队列 高可用 和 高性能 的核心架构,但在实际部署和运维过程中,往往会踩到各种“坑”。 本文将系统梳理这些常见问题、根本原因,并总结关键的排查和修复技巧,帮助你在生产环境中更好地稳定…

作者头像 李华
网站建设 2026/4/21 19:24:39

Windows找不到d3dx9_31.dll文件 无法启动游戏软件 彻底修复解决

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华
网站建设 2026/4/18 23:31:49

别再无脑敲 grep 了,我靠这 5 个选项,定位问题速度提升 10 倍

在日常运维工作中,我们几乎每天都在和日志、配置文件、代码片段打交道。 日志动辄几十 GB,配置文件成百上千行,出问题时,时间永远是最宝贵的资源。 很多同事都会用 grep,但90% 的人只会用最基础的 grep “keyword” file。 结果就是: 要么匹配不准 要么结果一大堆 要么漏…

作者头像 李华
网站建设 2026/4/22 5:00:01

手机端AIDE编译器安卓朗读器软件代码

java代码package com.ld.app; /*手机编程王APP & AIDE编译器联合出品官方微信2133688724微信公众号:手机编程APP官网:www.shoujibiancheng.com */import androidx.appcompat.app.AppCompatActivity;import android.os.Bundle;import android.speech.…

作者头像 李华
网站建设 2026/4/20 22:43:32

【Linux系统】进程终止、进程等待与进程替换的概念与实现

代码运行完毕,结果正确代码运行完毕,结果不正确代码异常终止(被信号终止了)而进程执行的结果状态,可以用两个数字表示出来,即退出码和终止信号:int exit_code, int exit_signal:当代…

作者头像 李华
网站建设 2026/4/18 7:00:20

第六十三篇-ComfyUI+V100-32G+代码-Z-Image-Turbo

环境 系统:CentOS-7 CPU : E5-2680V4 14核28线程 内存:DDR4 2133 32G * 2 显卡:Tesla V100-32G【PG503】 (水冷) 驱动: 535 CUDA: 12.2 ComfyUI version: 0.4.0 ComfyUI frontend version: 1.34.8系统软件信息 系统信息 OS linux Python Vers…

作者头像 李华