AIME25数学推理得分74.4！小参数模型也能玩转复杂公式推导-洪萨配资

小模型也能大作为：VibeThinker-1.5B 如何在 AIME25 上拿下 74.4 分？

当整个行业还在追逐千亿参数、万卡集群的时候，一个仅 15 亿参数的小模型，却在高难度数学推理任务中杀出重围——AIME25 得分 74.4，超过某些参数量数百倍的“前辈”。这不是科幻，而是 VibeThinker-1.5B-APP 带来的现实冲击。

这背后没有魔法，只有精准的设计哲学：用高质量数据和任务对齐训练，弥补参数规模的先天不足。它不聊天气、不写情书，只专注于一件事：把复杂的数学题和算法题一步步推导清楚。正是这种“专精而不泛化”的思路，让它在资源受限的条件下实现了性能跃迁。

为什么小模型也能做好复杂推理？

主流观点一直认为，强大的推理能力必须依赖庞大的模型容量。GPT-3.5 的 1750 亿参数、DeepSeek R1 的数十亿参数，似乎成了“智能”的入场券。但 VibeThinker-1.5B 打破了这一迷思。

它的成功并非偶然，而是一系列工程选择叠加的结果：

不是通用预训练 + 微调，而是从头聚焦垂直领域
训练数据全部来自竞赛级数学与编程题库
每条样本都经过 Chain-of-Thought（CoT）增强，包含完整解题路径
后期引入强化学习机制，优化推理链的严谨性与效率

换句话说，这个模型从出生起就被“教育”成一名 Olympiad 级别的解题专家，而不是先学百科再转行做题。这种“定向培养”模式极大提升了单位参数的信息利用率。

更惊人的是成本控制：总训练开销仅为 7,800 美元。相比之下，动辄百万美元的大模型项目对大多数研究团队来说遥不可及。而 VibeThinker 的出现意味着，高校实验室、初创公司甚至个人开发者，现在也可以参与前沿推理模型的研发。

它是怎么工作的？不只是“下一个词预测”

虽然底层仍是标准 Transformer 架构，但 VibeThinker-1.5B 的工作流程远非简单的自回归生成可概括。它的核心在于“可控推理流”——通过系统提示词激活特定行为模式，并输出结构化、可验证的多步推导过程。

举个例子，当你输入：

Solve step by step: Find all integers x such that x^2 ≡ 1 (mod 8).

模型不会直接猜答案，而是自动展开如下逻辑链条：

分析同余方程性质：x² ≡ 1 mod 8
枚举模 8 下的所有可能值（0 到 7），逐一验证平方后是否满足条件
发现只有 x ≡ 1, 3, 5, 7 (mod 8) 满足
总结规律：所有奇数均满足该式
输出最终结论：“All odd integers satisfy x² ≡ 1 (mod 8)”

整个过程就像一位经验丰富的数学老师在黑板上演算，每一步都有依据，且可以被人工复核。

而这套能力的关键触发器，是系统提示词（system prompt）。如果你不明确告诉它“你是一个数学推理助手”，它很可能按普通语言模型的方式回应，结果就是跳步、臆断或格式混乱。

所以使用时一定要加一句类似：

You are a mathematical reasoning assistant. Think step by step.

否则，你就等于让一个专精微积分的教授去主持脱口秀——能力没变，但表现完全失控。

英文提问为何效果更好？

实验发现，即使中文用户输入相同的问题，英文提示下的推理准确率平均高出 12%以上。原因其实很朴素：训练语料中超过 90% 是英文内容，尤其是 AIME、HMMT、Codeforces 等国际赛事题目几乎全为英语。

这意味着模型在英文语境下建立了更强的“思维惯性”。一旦切换到中文，不仅词汇映射存在损耗，连推理节奏也可能被打乱。比如，“求函数极值”翻译过去没问题，但模型内部激活的是英文解题模板，中间若出现术语偏差，就容易导致推理链断裂。

因此，哪怕你是中文母语者，也建议用英文提问。这不是崇洋，而是尊重模型的认知习惯。

实测表现：它真能解难题吗？

我们来看两个典型场景的实际表现。

场景一：AIME 风格数论题

Let $ S $ be the set of positive integers $ n $ for which $ \frac{1}{n} $ has a repeating decimal with period 6. How many elements does $ S $ have?

这个问题涉及循环小数周期理论，本质是要找满足 $ \text{ord}_{10}(n’) = 6 $ 的互质整数 $ n’ $，即 10 在模 $ n’ $ 下的乘法阶为 6。

传统小模型往往只能回答“我不知道”或者给出模糊猜测。但 VibeThinker-1.5B 能做到：

正确识别周期条件等价于 $ 10^6 \equiv 1 \pmod{n’} $，且无更小指数成立
计算 $ 10^6 - 1 = 999999 $ 并分解因数
排除整除 $ 10^k - 1 $（k < 6）的因子
枚举所有满足阶为 6 的因子组合
最终得出正确答案：54 个

更重要的是，它会写出完整的模运算推导过程，而不是直接甩出数字。这对教学、批改、调试都非常有价值。

场景二：LeetCode 中高难度编程题

Given an arraynumscontaining n distinct numbers taken from 0, 1, 2, …, n, return the one that is missing.

常规做法有两种：求和公式法 or 异或法。而 VibeThinker 不仅选择了更优的异或方案，还能解释为什么这么做：

def missingNumber(nums): n = len(nums) result = n for i in range(n): result ^= i ^ nums[i] return result

附带说明：

“Using XOR property: a ^ a = 0, and order doesn’t matter. We XOR all indices and values, leaving only the missing number.”

这说明它不是死记硬背代码模板，而是理解了算法背后的数学原理。这一点在 LiveCodeBench v6 测试中得到了验证：其得分为51.1，略高于 Magistral Medium（50.3），尤其在需要状态压缩和位运算的题目上优势明显。

技术指标对比：小身材，大能量

维度	VibeThinker-1.5B	典型中型模型（如 GPT-OSS-20B）
参数量	1.5B	≥20B
训练成本	$7,800	>$100,000
显存需求（FP16）	<8GB	>40GB
推理延迟	毫秒级	百毫秒级以上
AIME25 得分	74.4	~70–75
HMMT25 得分	50.4	DeepSeek R1 为 41.7
LiveCodeBench v6	51.1	~50–55

可以看到，在关键推理基准上，VibeThinker-1.5B 已经逼近甚至反超部分更大模型。尤其是在HMMT25上领先近 9 分，说明它在组合数学、概率建模等需要长链条推理的任务中具备更强的稳定性。

而且别忘了，它是跑在一块 RTX 3090 或 4090 上的——消费级显卡就能部署，无需依赖云服务。这对企业私有化部署、教育机构本地运行、边缘设备集成都极具吸引力。

怎么部署？一键启动，本地运行

该模型提供完整的本地部署支持，主要通过 Jupyter Notebook + Shell 脚本实现快速启动。

部署流程如下：

下载官方镜像或克隆仓库：
bash git clone https://gitcode.com/aistudent/ai-mirror-list
启动 Jupyter 环境，进入/root目录
运行一键脚本：
bash bash "1键推理.sh"

该脚本会自动完成以下操作：

检查 CUDA 与 PyTorch 版本兼容性
加载模型权重至 GPU 显存
启动基于 Gradio 或 Flask 的本地推理服务

打开网页界面，配置 system prompt，例如：
You are a competitive programming solver. Provide detailed step-by-step logic and code.
输入英文问题，等待结构化输出

整个系统运行在 Linux（通常是 Ubuntu + CUDA）环境下，模型文件存放于本地路径/root/models/vibethinker-1.5b-app，全程无需联网调用外部 API，保障数据安全。

使用建议：如何发挥最大效能？

尽管能力强，但 VibeThinker-1.5B 并非万能。要让它稳定输出高质量结果，必须遵循几个关键原则：

✅ 必须设置 system prompt

这是激活“推理模式”的开关。缺失提示词会导致行为退化为通用语言模型，输出变得跳跃、模糊。

推荐固定使用以下模板之一：
-"You are a mathematical reasoning assistant."
-"You are a programming problem solver. Think step by step."

✅ 坚持使用英文输入

中文虽能识别，但推理链完整性显著下降。建议将问题转化为简洁的英文数学表达式或伪代码形式。

✅ 避免开放性任务

不要指望它写小说、做情感分析或回答常识问题。它的知识边界集中在竞赛数学与算法设计领域。超出范围的表现会急剧下降。

✅ 控制输入长度

过长的问题描述容易稀释关键信息。建议提前提炼核心条件，去除冗余背景。

✅ 优先本地部署

由于所有计算都在本地完成，特别适合用于企业内训、考试辅助、科研协作等对隐私敏感的场景。

它的意义不止于“得分高”

VibeThinker-1.5B 的真正价值，不在于它得了多少分，而在于它重新定义了“高效 AI 推理”的可能性。

它证明了一个事实：在特定垂直领域，合理的训练策略和高质量数据，完全可以抵消参数规模的劣势。与其盲目堆参数，不如深耕任务对齐、数据构造和推理控制。

这也预示着未来的一种趋势：千人千模。

不再是每个人都用同一个大模型，而是每个专业领域都有自己的“小而精”推理引擎——数学有 MathThinker，物理有 PhysiCore，算法有 CodePilot。它们体积小、成本低、响应快，又能深度适配具体任务需求。

这样的 AI 才是可持续的、可落地的、真正服务于各行各业的智能基础设施。

如今，VibeThinker-1.5B 已经站在了起点。它或许还不够完美，但它指明了一条新路：智能不必庞大，精准才是力量。

AIME25数学推理得分74.4！小参数模型也能玩转复杂公式推导