清华大学和深圳鹏城实验室团队推出Kaiyuan-2B开源大模型,包含模型权重、训练数据、代码和完整训练配方。研究团队提出三项创新:分位数数据基准测试、策略性选择重复和多领域课程训练,有效解决异构数据和计算资源有限两大挑战。模型在中文、数学和代码能力方面表现突出,在全开源模型中达到前沿水平,为学术界和开源社区提供了可复现的参考。
前排提示,文末有大模型AGI-CSDN独家资料包哦!
大语言模型(LLM)领域发展迅速,但一个现实问题是:开源社区与工业界之间存在显著的知识鸿沟。工业界往往依赖闭源的高质量数据和训练配方,而学术界和开源社区则面临资源有限的困境。今天要介绍的这篇技术报告,来自清华大学和深圳鹏城实验室的团队,他们推出了一个完全开源的20亿参数模型——Kaiyuan-2B(开元-2B),不仅开源了模型权重,还公开了训练数据、代码和完整的训练配方。
Kaiyuan(开元)这个名字取自中文,模型的核心目标是在资源受限的情况下,提升训练效率和效果。研究团队提出了三项关键创新:分位数数据基准测试(Quantile Data Benchmarking)、策略性选择重复(Strategic Selective Repetition)和多领域课程训练(Multi-Domain Curriculum Training)。通过这些方法,Kaiyuan-2B在全开源模型中达到了前沿水平,在中文、数学和代码能力方面表现尤为突出。
- 论文标题:PCMind-2.1-Kaiyuan-2B Technical Report
- 论文地址: https://arxiv.org/abs/2512.07612
- 模型下载: https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B
- 作者: Kairong Luo, Zhenbo Sun, Xinyu Shi, Shengqi Chen, Bowen Yu, Yunyi Chen, Chenyi Dang, Hengtao Tao, Hui Wang, Fangming Liu, Kaifeng Lyu, Wenguang Chen
- 单位: 清华大学、深圳鹏城实验室、北京厚笃科技有限公司
为什么需要"完全开源"的大模型?
当前LLM领域存在两种主流的开放模式:一是完全闭源的模型(如GPT-4),二是开放权重但闭源训练配方的模型(如DeepSeek、Qwen系列)。后者虽然开放了模型权重,但训练数据和详细的训练过程仍然保密。这种"半开放"模式导致学术界难以深入探索大规模预训练背后的科学和工程原理。
完全开源模型,指的是同时公开模型权重、训练数据集和详细训练流程的模型。这类模型的代表作品包括OLMo系列、SmolLM系列和Yulan系列。它们对于弥合知识鸿沟、促进学术探索至关重要。
然而,完全开源预训练面临两大核心挑战:
- 异构开源数据:虽然有大量预训练规模的开源数据集可用,但它们来源和预处理管线差异巨大,如何有效比较、选择和混合这些数据集是一个难题。
- 计算资源有限:学术界通常无法负担工业界动辄数十万亿token的训练规模,需要新的策略来提升有限资源下的训练效率。
Kaiyuan-2B正是针对这两个问题,提出了实用的解决方案。
分位数数据基准测试:系统化评估数据集质量
面对众多开源数据集,如何判断哪个数据集更好?如何确定最优的数据混合比例?传统的方法是进行top-k过滤,只保留质量评分最高的数据。但这种方法有局限性:它只能反映某个阈值以上数据的平均质量,而无法揭示数据集内部的质量分布特征。
研究团队提出了分位数数据基准测试(Quantile Data Benchmarking)方法。其核心思想是:根据数据集的质量评分,选取不同分位数(如0%、20%、40%、60%、80%)附近的数据块,分别训练小规模参考模型,然后在下游任务上评估这些模型的表现。
这种方法的优势在于:
- 成本可控:对于一个609B token的数据集(如DCLM-Baseline),每次分位数测试只消耗约8.4B token,总共42B token,仅占原数据集的6.9%。使用0.6B参数的参考模型,计算成本约为全部训练的2%。
- 粒度更细:相比top-k过滤,分位数方法能更精细地揭示数据集在不同质量区间的特征。
通过对DCLM-Baseline和FineWeb-Edu两个主流英文数据集的分位数测试,研究团队发现了一些有价值的结论:
- 任务依赖性:FineWeb-Edu在知识密集型任务(如MMLU)上表现更好,而DCLM-Baseline在常识推理任务(如WinoGrande)上更优。这说明不同数据集适合不同的能力培养。
- 数据集内部异质性:即使在同一个数据集内,不同质量分位数的数据在下游任务上表现差异可达2%的绝对准确率。
- 非单调关系:质量评分更高的数据并不总是带来更好的性能。在某些任务上,提高质量评分反而会导致性能下降,这对当前通用的质量过滤策略提出了质疑。
这些发现直接指导了后续的数据混合策略。例如,研究团队发现整个FineWeb-Edu数据集的MMLU性能大致相当于DCLM-Baseline的top-30%分位,因此在Phase 2阶段使用了完整的FineWeb-Edu,但只保留DCLM-Baseline的top-33.4%部分。
策略性选择重复:高效利用稀缺的高质量数据
分位数测试证实了高质量数据的稀缺性和高价值。如何在不过度消耗资源的情况下充分利用这些数据?
研究团队采用了五阶段训练范式,在多个阶段之间实施策略性选择重复:
- 在单个阶段内,每个数据样本通常只出现一次。
- 高质量数据样本可能在多个阶段中重复出现。
- 后续阶段逐步降低保留比例(top-k ratio),只保留质量更高的部分。
以FineWeb-Edu为例:Phase 2使用完整数据集,Phase 3只保留top-50%,Phase 4保留top-30%,Phase 5仅保留top-10%。这意味着最高质量的10%数据实际上被训练了4次,而平均质量的数据只被训练1次。
这种设计的思路是:适度重复高质量数据能够带来比单次训练更好的效率,但重复次数不能过多,否则会出现过拟合。研究团队通过小规模实验验证了这一点:在1.5B模型上训练30B token,保留33.4%的top-k数据并重复2次,比保留77.4%数据更能提升核心指标(MMLU、ARC、CSQA)的表现。
多领域课程训练:让模型从易到难学习
除了阶段级别的调整,研究团队还在训练阶段内部实施了实例级别的课程学习(Curriculum Learning)。核心思想是:按质量评分升序排列数据,让模型先学习较简单的样本,后学习高质量样本。
由于训练数据来自多个数据集,每个数据集的质量指标可能不同甚至缺失,如何构建统一的课程?团队提出了三步流程:
- 数据集内排序:在每个数据集内部,按各自的质量指标升序排列。没有质量指标的数据集则随机打乱。
- 排序重缩放:将每个数据集内的排序转换为全局排序,公式为:,其中 是数据集内排序, 是该数据集样本数, 是所有样本总数。
- 全局交织:将所有样本按重缩放后的全局排序合并排序。
这个算法确保:在保持数据集内质量顺序的同时,不同数据集的样本按比例均匀交织,训练过程中数据混合比例保持稳定。
为了充分发挥课程学习的优势,团队采用了课程模型平均(Curriculum Model Average, CMA)技术:使用适中的学习率衰减,并对最后几个检查点进行模型平均。实验表明,CMA比均匀采样能带来0.4%的核心指标提升。
训练稳定性:FP16硬件上的架构优化
Kaiyuan-2B在华为Ascend 910A加速器上训练,该硬件仅支持FP16精度,动态范围有限,容易出现溢出问题。
研究团队分析发现,训练不稳定主要来自两个位置:注意力的logits和SwiGLU激活后的MLP层激活值。在处理1万亿token后,最大激活值超过10,000,接近FP16上限。
为解决这些问题,团队采用了两项架构修改:
- Logits Soft-Capping:使用 函数将logits压缩到固定范围内,公式为 ,其中阈值 设为30.0。
- Sandwich Normalization:在子层输出后、残差连接前增加一个额外的归一化层,确保每层贡献的方差保持在单位级别。
实验显示,这些修改将注意力logits的L1范数降低了约一个数量级,MLP激活值的L1范数也保持在安全范围内。
性能表现:全开源模型的新前沿
Kaiyuan-2B在多个基准测试上的表现如何?研究团队进行了详细的对比评估。
核心能力:中文、数学、代码
在中文、数学和代码三个专项能力上,Kaiyuan-2B平均得分46.05,在全开源模型中表现优异:
- 中文:C-Eval得分46.30,CMMLU得分49.25,明显高于SmolLM2-1.7B和OLMo-2-1B,接近更大的SmolLM3-3B。
- 数学:GSM8K得分51.33,大幅超越SmolLM2-1.7B(31.10);MATH得分30.34,超过YuLan-Mini-2.4B(27.12)。
- 代码:HumanEval得分42.68,超过SmolLM3-3B(39.63)和Qwen2.5-3B(42.10)。
推理和知识能力
在9个推理和知识基准测试上,Kaiyuan-2B平均得分67.74:
- 超越SmolLM2-1.7B(+1.69)和OLMo-2-1B(+5.68)
- 接近更大的YuLan-Mini-2.4B(67.50)
- 与开放权重模型Gemma2-2B(69.16)差距很小
非嵌入参数视角
如果仅计算非嵌入参数(Kaiyuan-2B仅有1.4B非嵌入参数,总参数2B;而Gemma2-2B有2.02B非嵌入参数,总参数2.6B),Kaiyuan-2B的效率优势更加明显。
训练曲线分析
研究团队还公开了完整的训练曲线,包括学习率调度、训练损失和验证损失:
几个有趣的现象:
- 训练损失呈现非标准衰减模式,这是由于阶段间的学习率变化、后期引入更多低困惑度的代码和数学内容、以及课程学习在阶段内的影响。
- 验证损失在Phase 3-4期间出现异常上升,可能是因为验证集主要是英文文本,而训练数据中代码和数学内容占比越来越高,存在领域不匹配。
写在最后
Kaiyuan-2B项目展示了一套系统性的、资源高效的全开源预训练方案。通过分位数数据基准测试理解数据特性,通过策略性选择重复充分利用高质量数据,通过多领域课程训练提升学习效率,最终在20亿参数规模上达到了全开源模型的前沿水平。
更重要的是,研究团队公开了完整的训练配方、数据混合细节和数据处理框架(Kaiyuan-Spark),为学术界和开源社区提供了可复现的参考。这种"完全透明"的开放模式,有助于推动LLM预训练科学原理的深入探索。
对于资源有限的研究者来说,如何从这些方法中汲取灵感?如何将分位数基准测试应用到自己的数据选择中?这些问题值得进一步思考。
读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用。
针对0基础小白:
如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求:大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能,学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力:大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓