如何科学地“设计”SFT 数据？一次关于 ODA 的完整平台级验证-洪萨配资

在大模型后训练阶段，SFT（监督微调）数据的构建至关重要。然而，长期以来，这一过程业界的通行做法往往依赖“直觉”或“试错”，即多收一点、再筛一轮、训一次模型、看下效果，然后再调整。这个过程不仅成本高昂，而且很难回答一个根本性问题——哪些数据是真的“有用”的，为什么？

为了摆脱“盲盒式”微调，急需建立一套科学的数据效能评估方法，用以成为数据生产的“指南针”。

日前，上海人工智能实验室 OpenDataLab 团队发布最新技术报告《Closing the Data Loop: Using OpenDataArena to Engineer Superior Training Datasets》（arXiv: https://arxiv.org/pdf/2601.09733）。基于 OpenDataArena 项目所提供的数据多维价值分析，团队提出了一种全新的范式：利用 OpenDataArena (简称“ODA”) 的评测反馈，将数据集构建从“随机艺术”转变为“确定性的工程” 。

1. 从“评测看结果”到“评测参与生产”

传统的 SFT 流程，本质上是一个开环系统：数据收集 → 模型训练 → 评测分析。评测往往只发生在最后，用来“看效果好不好”，却很少反向影响数据本身的构造逻辑。这也是为什么数据调优经常变成“黑盒试错”。

ODA 的核心设计目标，是把这条链路真正闭合起来。在这篇报告中，OpenDataLab团队将 ODA 的工作流完整跑通为一个闭环过程：评测 → 排名 → 数据工程 → 再评测。

这里的关键变化在于：评测不再只是一个分数，而是被明确用作数据筛选与配比的决策信号；排行榜不再只是模型展示，而是用于衡量不同数据源在特定能力上的真实贡献。这一步，使得数据构造第一次具备了工程意义上的“可解释性”和“可复现性”。

2. 一次平台级验证：ODA 能不能真的“指导造数据”？

为了避免引入额外假设，团队在实验中严格遵循一个原则来构造数据：数据构造过程尽可能只依赖 ODA 提供的评测与工具信号。

（一）数学推理场景：ODA-Math-460k

在数学推理任务中，我们完全通过 ODA 跑通了一条工程化的数据构造路径。

首先是数据源选择。不再凭经验判断“哪些数学数据集可能有用”，而是直接利用 ODA 的跨模型评测结果，对现有数学数据集进行横向比较，从中筛选出在数学能力上真实有效的数据源，将表现最佳的20个数学数据集快速聚合成一个包含1140 万样本的初始数学问题池。

接下来是数据筛选与压缩。ODA-Tool 提供了极其丰富的多维评估器，能够从复杂度、多样性、语义分布、奖励模型评分等多个维度对数据价值进行深度剖析。我们系统比较了不同筛选信号在数学场景下的效果，实验发现，相比传统的复杂度或启发式指标，基于模型表现的 pass-rate 信号更能反映模型的“学习前沿”，也更有利于预测训练收益。

在这一标准的指导下，团队剔除了模型已经熟练掌握的简单样本，同时避免引入不可解或噪声数据，最终将数据池从千万级工程化压缩到46 万条高信息密度样本。尽管规模缩小了 25 倍，但每一条留存数据都处于模型的“黄金学习区”，具有极高的信息增量。

整个过程不是一次性调参，而是严格遵循 ODA 的评测→反馈→再评测的闭环完成的。

（二）通用混合全域场景：ODA-Mixture 的构造逻辑

在通用能力场景中，ODA 的作用更接近一个“数据调度系统”。面对海量候选数据，ODA 提供了一个关键视角：

用数据效率（Data Efficiency）衡量单位样本带来的模型收益。

基于 ODA 的总榜单，我们发现一些体量极小的数据集，比如 LIMO，在多个模型上的单位增益显著高于常规大规模数据。这类数据自然成为混合集的“锚点底座”。

同时，而针对锚点可能覆盖不足的能力维度，我们不再盲目扩充数据规模，而是直接通过 ODA 的子领域榜单，定位到对应能力最有效的数据来源，进行定向补充。具体来说，预算受限时，调度“难度优先采样”策略。利用 ODA-Tool 进行聚类后，在每个簇内优先抽取长思维链样本，通过重尾分布强行拉升模型的逻辑深度；而当目标是刷新 ODA 榜单天花板时，切换为“多样性感知采样”。ODA-Tool 此时的任务是确保语义空间的全覆盖，通过平衡采样消除特定分布带来的偏见。

数据“加什么、不加什么、加多少”，都由评测信号直接驱动，而非经验判断。整个过程采用的“锚点+补丁”策略，思想极为简单，而且实现也非常方便，为数据构造提供了轻量化的一条路径。

3. 结果并非终点，评估驱动的闭环才是持续进化的关键

通过ODA 闭环工程化流程的引入，为 SFT 数据构建带来了实质性的效率飞跃。比如ODA-Math-460k仅用不到一半的数据量，便超越了 1.2M 规模的 OpenThoughts-3，并在 AIME、HMMT 等高难度基准上取得了非常领先的结果。ODA-Mixture-100k/500k 更是在18+ 综合评测中取得了显著的优势，超过现有 SOTA 结果 5 个点以上，实现了“数据全能王”的特性。特征聚类分析显示，ODA 引导的采样策略比传统的启发式筛选拥有更均衡、更广阔的语义覆盖面。这些结果非常好的证明了 ODA 平台能够带来的数据评估、数据构造的优势。

但这篇报告更重要的结论并不在于模型取得的具体 SOTA 结果，而在于验证了 ODA 作为一个平台，确实可以稳定地支撑引导高质量 SFT 数据的生产。这意味着，SFT 数据构造不必再完全依赖经验和反复试错；数据规模不再是唯一变量；评测可以成为数据工程中的“控制信号”。