news 2025/12/21 20:33:21

全开源20亿参数大模型,揭秘清华团队如何突破资源限制训练LLM

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
全开源20亿参数大模型,揭秘清华团队如何突破资源限制训练LLM

清华大学和深圳鹏城实验室团队推出Kaiyuan-2B开源大模型,包含模型权重、训练数据、代码和完整训练配方。研究团队提出三项创新:分位数数据基准测试、策略性选择重复和多领域课程训练,有效解决异构数据和计算资源有限两大挑战。模型在中文、数学和代码能力方面表现突出,在全开源模型中达到前沿水平,为学术界和开源社区提供了可复现的参考。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

大语言模型(LLM)领域发展迅速,但一个现实问题是:开源社区与工业界之间存在显著的知识鸿沟。工业界往往依赖闭源的高质量数据和训练配方,而学术界和开源社区则面临资源有限的困境。今天要介绍的这篇技术报告,来自清华大学和深圳鹏城实验室的团队,他们推出了一个完全开源的20亿参数模型——Kaiyuan-2B(开元-2B),不仅开源了模型权重,还公开了训练数据、代码和完整的训练配方。

Kaiyuan(开元)这个名字取自中文,模型的核心目标是在资源受限的情况下,提升训练效率和效果。研究团队提出了三项关键创新:分位数数据基准测试(Quantile Data Benchmarking)、策略性选择重复(Strategic Selective Repetition)和多领域课程训练(Multi-Domain Curriculum Training)。通过这些方法,Kaiyuan-2B在全开源模型中达到了前沿水平,在中文、数学和代码能力方面表现尤为突出。

  • 论文标题:PCMind-2.1-Kaiyuan-2B Technical Report
  • 论文地址: https://arxiv.org/abs/2512.07612
  • 模型下载: https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B
  • 作者: Kairong Luo, Zhenbo Sun, Xinyu Shi, Shengqi Chen, Bowen Yu, Yunyi Chen, Chenyi Dang, Hengtao Tao, Hui Wang, Fangming Liu, Kaifeng Lyu, Wenguang Chen
  • 单位: 清华大学、深圳鹏城实验室、北京厚笃科技有限公司

为什么需要"完全开源"的大模型?

当前LLM领域存在两种主流的开放模式:一是完全闭源的模型(如GPT-4),二是开放权重但闭源训练配方的模型(如DeepSeek、Qwen系列)。后者虽然开放了模型权重,但训练数据和详细的训练过程仍然保密。这种"半开放"模式导致学术界难以深入探索大规模预训练背后的科学和工程原理。

完全开源模型,指的是同时公开模型权重、训练数据集和详细训练流程的模型。这类模型的代表作品包括OLMo系列、SmolLM系列和Yulan系列。它们对于弥合知识鸿沟、促进学术探索至关重要。

然而,完全开源预训练面临两大核心挑战:

  • 异构开源数据:虽然有大量预训练规模的开源数据集可用,但它们来源和预处理管线差异巨大,如何有效比较、选择和混合这些数据集是一个难题。
  • 计算资源有限:学术界通常无法负担工业界动辄数十万亿token的训练规模,需要新的策略来提升有限资源下的训练效率。

Kaiyuan-2B正是针对这两个问题,提出了实用的解决方案。

分位数数据基准测试:系统化评估数据集质量

面对众多开源数据集,如何判断哪个数据集更好?如何确定最优的数据混合比例?传统的方法是进行top-k过滤,只保留质量评分最高的数据。但这种方法有局限性:它只能反映某个阈值以上数据的平均质量,而无法揭示数据集内部的质量分布特征。

研究团队提出了分位数数据基准测试(Quantile Data Benchmarking)方法。其核心思想是:根据数据集的质量评分,选取不同分位数(如0%、20%、40%、60%、80%)附近的数据块,分别训练小规模参考模型,然后在下游任务上评估这些模型的表现。

这种方法的优势在于:

  • 成本可控:对于一个609B token的数据集(如DCLM-Baseline),每次分位数测试只消耗约8.4B token,总共42B token,仅占原数据集的6.9%。使用0.6B参数的参考模型,计算成本约为全部训练的2%。
  • 粒度更细:相比top-k过滤,分位数方法能更精细地揭示数据集在不同质量区间的特征。

通过对DCLM-Baseline和FineWeb-Edu两个主流英文数据集的分位数测试,研究团队发现了一些有价值的结论:

  • 任务依赖性:FineWeb-Edu在知识密集型任务(如MMLU)上表现更好,而DCLM-Baseline在常识推理任务(如WinoGrande)上更优。这说明不同数据集适合不同的能力培养。
  • 数据集内部异质性:即使在同一个数据集内,不同质量分位数的数据在下游任务上表现差异可达2%的绝对准确率。
  • 非单调关系:质量评分更高的数据并不总是带来更好的性能。在某些任务上,提高质量评分反而会导致性能下降,这对当前通用的质量过滤策略提出了质疑。

这些发现直接指导了后续的数据混合策略。例如,研究团队发现整个FineWeb-Edu数据集的MMLU性能大致相当于DCLM-Baseline的top-30%分位,因此在Phase 2阶段使用了完整的FineWeb-Edu,但只保留DCLM-Baseline的top-33.4%部分。

策略性选择重复:高效利用稀缺的高质量数据

分位数测试证实了高质量数据的稀缺性和高价值。如何在不过度消耗资源的情况下充分利用这些数据?

研究团队采用了五阶段训练范式,在多个阶段之间实施策略性选择重复:

  • 在单个阶段内,每个数据样本通常只出现一次。
  • 高质量数据样本可能在多个阶段中重复出现。
  • 后续阶段逐步降低保留比例(top-k ratio),只保留质量更高的部分。

以FineWeb-Edu为例:Phase 2使用完整数据集,Phase 3只保留top-50%,Phase 4保留top-30%,Phase 5仅保留top-10%。这意味着最高质量的10%数据实际上被训练了4次,而平均质量的数据只被训练1次。

这种设计的思路是:适度重复高质量数据能够带来比单次训练更好的效率,但重复次数不能过多,否则会出现过拟合。研究团队通过小规模实验验证了这一点:在1.5B模型上训练30B token,保留33.4%的top-k数据并重复2次,比保留77.4%数据更能提升核心指标(MMLU、ARC、CSQA)的表现。

多领域课程训练:让模型从易到难学习

除了阶段级别的调整,研究团队还在训练阶段内部实施了实例级别的课程学习(Curriculum Learning)。核心思想是:按质量评分升序排列数据,让模型先学习较简单的样本,后学习高质量样本。

由于训练数据来自多个数据集,每个数据集的质量指标可能不同甚至缺失,如何构建统一的课程?团队提出了三步流程:

  1. 数据集内排序:在每个数据集内部,按各自的质量指标升序排列。没有质量指标的数据集则随机打乱。
  2. 排序重缩放:将每个数据集内的排序转换为全局排序,公式为:,其中 是数据集内排序, 是该数据集样本数, 是所有样本总数。
  3. 全局交织:将所有样本按重缩放后的全局排序合并排序。

这个算法确保:在保持数据集内质量顺序的同时,不同数据集的样本按比例均匀交织,训练过程中数据混合比例保持稳定。

为了充分发挥课程学习的优势,团队采用了课程模型平均(Curriculum Model Average, CMA)技术:使用适中的学习率衰减,并对最后几个检查点进行模型平均。实验表明,CMA比均匀采样能带来0.4%的核心指标提升。

训练稳定性:FP16硬件上的架构优化

Kaiyuan-2B在华为Ascend 910A加速器上训练,该硬件仅支持FP16精度,动态范围有限,容易出现溢出问题。

研究团队分析发现,训练不稳定主要来自两个位置:注意力的logits和SwiGLU激活后的MLP层激活值。在处理1万亿token后,最大激活值超过10,000,接近FP16上限。

为解决这些问题,团队采用了两项架构修改:

  • Logits Soft-Capping:使用 函数将logits压缩到固定范围内,公式为 ,其中阈值 设为30.0。
  • Sandwich Normalization:在子层输出后、残差连接前增加一个额外的归一化层,确保每层贡献的方差保持在单位级别。

实验显示,这些修改将注意力logits的L1范数降低了约一个数量级,MLP激活值的L1范数也保持在安全范围内。

性能表现:全开源模型的新前沿

Kaiyuan-2B在多个基准测试上的表现如何?研究团队进行了详细的对比评估。

核心能力:中文、数学、代码

在中文、数学和代码三个专项能力上,Kaiyuan-2B平均得分46.05,在全开源模型中表现优异:

  • 中文:C-Eval得分46.30,CMMLU得分49.25,明显高于SmolLM2-1.7B和OLMo-2-1B,接近更大的SmolLM3-3B。
  • 数学:GSM8K得分51.33,大幅超越SmolLM2-1.7B(31.10);MATH得分30.34,超过YuLan-Mini-2.4B(27.12)。
  • 代码:HumanEval得分42.68,超过SmolLM3-3B(39.63)和Qwen2.5-3B(42.10)。

推理和知识能力

在9个推理和知识基准测试上,Kaiyuan-2B平均得分67.74

  • 超越SmolLM2-1.7B(+1.69)和OLMo-2-1B(+5.68)
  • 接近更大的YuLan-Mini-2.4B(67.50)
  • 与开放权重模型Gemma2-2B(69.16)差距很小

非嵌入参数视角

如果仅计算非嵌入参数(Kaiyuan-2B仅有1.4B非嵌入参数,总参数2B;而Gemma2-2B有2.02B非嵌入参数,总参数2.6B),Kaiyuan-2B的效率优势更加明显。

训练曲线分析

研究团队还公开了完整的训练曲线,包括学习率调度、训练损失和验证损失:

几个有趣的现象:

  • 训练损失呈现非标准衰减模式,这是由于阶段间的学习率变化、后期引入更多低困惑度的代码和数学内容、以及课程学习在阶段内的影响。
  • 验证损失在Phase 3-4期间出现异常上升,可能是因为验证集主要是英文文本,而训练数据中代码和数学内容占比越来越高,存在领域不匹配。

写在最后

Kaiyuan-2B项目展示了一套系统性的、资源高效的全开源预训练方案。通过分位数数据基准测试理解数据特性,通过策略性选择重复充分利用高质量数据,通过多领域课程训练提升学习效率,最终在20亿参数规模上达到了全开源模型的前沿水平。

更重要的是,研究团队公开了完整的训练配方、数据混合细节和数据处理框架(Kaiyuan-Spark),为学术界和开源社区提供了可复现的参考。这种"完全透明"的开放模式,有助于推动LLM预训练科学原理的深入探索。

对于资源有限的研究者来说,如何从这些方法中汲取灵感?如何将分位数基准测试应用到自己的数据选择中?这些问题值得进一步思考。

读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用。

针对0基础小白:

如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求:大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能,学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力:大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/11 18:35:45

学习笔记——Makefile

基本概念 Makefile 是工程管理工具,用于编译多个源文件(可能在不同目录下),可以添加编译选项。 基本语法规则 makefile 目标: 依赖 [TAB] 规则命令 版本演进 版本1:直接编译 makefile a.out: main.c func.cgcc…

作者头像 李华
网站建设 2025/12/17 17:24:14

【必看收藏】2026大模型校招趋势:5.2W月薪岗位揭秘,AI人才就业指南

2026年AI人才校招市场呈现显著扩张趋势,大模型算法岗位月薪可达5.2万,顶尖人才薪资翻倍。高科技企业(60%)比金融行业(40.1%)更重视AI人才,近六成企业计划扩招。企业更看重数学与算法基础(60.3%)和项目实践(52.5%),名校学历重要性下…

作者头像 李华
网站建设 2025/12/11 18:34:08

MMSA框架:多模态情感分析的终极指南与实战应用

MMSA框架:多模态情感分析的终极指南与实战应用 【免费下载链接】MMSA MMSA is a unified framework for Multimodal Sentiment Analysis. 项目地址: https://gitcode.com/gh_mirrors/mm/MMSA 在人工智能快速发展的今天,多模态情感分析正成为理解人…

作者头像 李华
网站建设 2025/12/11 18:34:07

Markdowner:网站内容秒变AI友好Markdown的终极神器

还在为网站内容整理发愁吗?Markdowner来帮你!这个强大的开源工具能够将任何网站瞬间转换为适合大型语言模型处理的Markdown格式数据,让你的AI应用更智能、更高效。 【免费下载链接】markdowner A fast tool to convert any website into LLM-…

作者头像 李华
网站建设 2025/12/11 18:33:36

如何扛住《珠江》所有拍摄考验?幕后8K设备实力揭晓

珠江,一条承载着千年商贸与人文记忆的水道,其纪录片拍摄始终面临着独特挑战——变幻的光线、复杂的水汽环境、需要同时捕捉的宏大场景与精微细节。当拍摄团队决定采用博冠8K摄像机完成这一项目时,这既是对设备性能的一次高强度检验&#xff0…

作者头像 李华