news 2026/6/12 17:35:33

如何科学地“设计”SFT 数据?一次关于 ODA 的完整平台级验证

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何科学地“设计”SFT 数据?一次关于 ODA 的完整平台级验证

在大模型后训练阶段,SFT(监督微调)数据的构建至关重要。然而,长期以来,这一过程业界的通行做法往往依赖“直觉”或“试错”,即多收一点、再筛一轮、训一次模型、看下效果,然后再调整。这个过程不仅成本高昂,而且很难回答一个根本性问题——哪些数据是真的“有用”的,为什么?

为了摆脱“盲盒式”微调,急需建立一套科学的数据效能评估方法,用以成为数据生产的“指南针”。

日前,上海人工智能实验室 OpenDataLab 团队发布最新技术报告 《Closing the Data Loop: Using OpenDataArena to Engineer Superior Training Datasets》(arXiv: https://arxiv.org/pdf/2601.09733)。基于 OpenDataArena 项目所提供的数据多维价值分析,团队提出了一种全新的范式:利用 OpenDataArena (简称“ODA”) 的评测反馈,将数据集构建从“随机艺术”转变为“确定性的工程” 。

1. 从“评测看结果”到“评测参与生产”

传统的 SFT 流程,本质上是一个开环系统:数据收集 → 模型训练 → 评测分析。评测往往只发生在最后,用来“看效果好不好”,却很少反向影响数据本身的构造逻辑。这也是为什么数据调优经常变成“黑盒试错”。

ODA 的核心设计目标,是把这条链路真正闭合起来。在这篇报告中,OpenDataLab团队将 ODA 的工作流完整跑通为一个闭环过程:评测 → 排名 → 数据工程 → 再评测。

这里的关键变化在于:评测不再只是一个分数,而是被明确用作数据筛选与配比的决策信号;排行榜不再只是模型展示,而是用于衡量不同数据源在特定能力上的真实贡献。这一步,使得数据构造第一次具备了工程意义上的“可解释性”和“可复现性”。

2. 一次平台级验证:ODA 能不能真的“指导造数据”?

为了避免引入额外假设,团队在实验中严格遵循一个原则来构造数据:数据构造过程尽可能只依赖 ODA 提供的评测与工具信号。

(一)数学推理场景:ODA-Math-460k

在数学推理任务中,我们完全通过 ODA 跑通了一条工程化的数据构造路径。

首先是数据源选择。不再凭经验判断“哪些数学数据集可能有用”,而是直接利用 ODA 的跨模型评测结果,对现有数学数据集进行横向比较,从中筛选出在数学能力上真实有效的数据源,将表现最佳的20个数学数据集快速聚合成一个包含1140 万样本的初始数学问题池。

接下来是数据筛选与压缩。ODA-Tool 提供了极其丰富的多维评估器,能够从复杂度、多样性、语义分布、奖励模型评分等多个维度对数据价值进行深度剖析。我们系统比较了不同筛选信号在数学场景下的效果,实验发现,相比传统的复杂度或启发式指标,基于模型表现的 pass-rate 信号更能反映模型的“学习前沿”,也更有利于预测训练收益。

在这一标准的指导下,团队剔除了模型已经熟练掌握的简单样本,同时避免引入不可解或噪声数据,最终将数据池从千万级工程化压缩到46 万条高信息密度样本。尽管规模缩小了 25 倍,但每一条留存数据都处于模型的“黄金学习区”,具有极高的信息增量。

整个过程不是一次性调参,而是严格遵循 ODA 的评测反馈再评测的闭环完成的。

(二)通用混合全域场景:ODA-Mixture 的构造逻辑

在通用能力场景中,ODA 的作用更接近一个“数据调度系统”。面对海量候选数据,ODA 提供了一个关键视角:

用数据效率(Data Efficiency)衡量单位样本带来的模型收益。

基于 ODA 的总榜单,我们发现一些体量极小的数据集,比如 LIMO,在多个模型上的单位增益显著高于常规大规模数据。这类数据自然成为混合集的“锚点底座”

同时,而针对锚点可能覆盖不足的能力维度,我们不再盲目扩充数据规模,而是直接通过 ODA 的子领域榜单,定位到对应能力最有效的数据来源,进行定向补充。具体来说,预算受限时,调度“难度优先采样”策略。利用 ODA-Tool 进行聚类后,在每个簇内优先抽取长思维链样本,通过重尾分布强行拉升模型的逻辑深度;而当目标是刷新 ODA 榜单天花板时,切换为“多样性感知采样”。ODA-Tool 此时的任务是确保语义空间的全覆盖,通过平衡采样消除特定分布带来的偏见 。

数据“加什么、不加什么、加多少”,都由评测信号直接驱动,而非经验判断。整个过程采用的“锚点+补丁”策略,思想极为简单,而且实现也非常方便,为数据构造提供了轻量化的一条路径。

3. 结果并非终点,评估驱动的闭环才是持续进化的关键

通过ODA 闭环工程化流程的引入,为 SFT 数据构建带来了实质性的效率飞跃。比如ODA-Math-460k仅用不到一半的数据量,便超越了 1.2M 规模的 OpenThoughts-3,并在 AIME、HMMT 等高难度基准上取得了非常领先的结果。ODA-Mixture-100k/500k 更是在18+ 综合评测中取得了显著的优势,超过现有 SOTA 结果 5 个点以上,实现了“数据全能王”的特性。特征聚类分析显示,ODA 引导的采样策略比传统的启发式筛选拥有更均衡、更广阔的语义覆盖面 。这些结果非常好的证明了 ODA 平台能够带来的数据评估、数据构造的优势。

但这篇报告更重要的结论并不在于模型取得的具体 SOTA 结果,而在于验证了 ODA 作为一个平台,确实可以稳定地支撑引导高质量 SFT 数据的生产。这意味着,SFT 数据构造不必再完全依赖经验和反复试错;数据规模不再是唯一变量;评测可以成为数据工程中的“控制信号”。

写在最后

相比于发布数据本身,跑通标准化且可复用的数据工程链路才是报告所展示的研究意义所在。OpenDataLab团队希望通过 ODA 助力社区跨越“经验式收集”阶段,步入“精准化设计”时代,将 SFT 数据构建转化为一项逻辑透明、效能可控的科学工程任务

资源下载:

  • 技术报告:https://arxiv.org/pdf/2601.09733

  • ODA-Tool 自动化工具箱:https://github.com/OpenDataArena/OpenDataArena-Tool

  • 开源数据集(ODA-Math/Mixture):https://huggingface.co/datasets/OpenDataArena

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 17:02:26

机器学习输入层:从基础到前沿,解锁模型性能第一关

机器学习输入层:从基础到前沿,解锁模型性能第一关 引言 在构建机器学习模型时,我们常常将目光聚焦于复杂的网络架构与精妙的损失函数。然而,输入层作为模型与原始数据的“翻译官”和“第一印象”,其形式设计与处理流程…

作者头像 李华
网站建设 2026/6/12 17:27:12

树莓派的一些命令

更新系统包列表:sudo apt update升级已安装的包:sudo apt upgrade查看树莓派的信息:cat /proc/cpuinfo查看内存使用情况:free -h查看磁盘使用情况:df -h查看网络接口信息:ip addr7.如果你想要更准确的CPU信…

作者头像 李华
网站建设 2026/6/12 16:38:53

智科毕业设计新颖的选题指导

文章目录🚩 1 前言1.1 选题注意事项1.1.1 难度怎么把控?1.1.2 题目名称怎么取?1.2 选题推荐1.2.1 起因1.2.2 核心- 如何避坑(重中之重)1.2.3 怎么办呢?🚩2 选题概览🚩 3 项目概览题目1 : 大数据电商用户行为…

作者头像 李华
网站建设 2026/6/10 0:35:37

传音控股预计2025年营收656亿:净利25亿 同比降54%

雷递网 乐天 1月30日深圳传音控股股份有限公司(证券代码:688036证券简称:传音控股)日前发布业绩预告,传音控股预计2025年营收为655.68亿元左右,比上年同期减少31.47亿元左右,同比减少4.58%左右。…

作者头像 李华
网站建设 2026/6/7 17:19:14

能源基建安全失守?暗网新型 OT 攻击框架的产业化冲击

在数字与物理世界深度融合的当下,能源基础设施作为国家关键信息基础设施的核心,正成为网络攻击的首要目标。2026年初,暗网浮出多款专为能源行业打造的新型OT攻击框架,这类框架由国家背景黑客组织与黑灰产团伙联合打造,…

作者头像 李华