大模型训练全周期详解：从预训练到RLHF的完整技术路径-洪萨配资

本文系统梳理了大语言模型训练全周期的四个核心阶段：预训练、有监督微调、奖励建模和强化学习。预训练阶段通过海量数据构建基础语言能力；SFT阶段使模型学会遵循人类指令；奖励建模和RLHF阶段则将人类价值观编码到模型中，提升输出的有用性、安全性和诚实性。这四个阶段相互依赖、层层递进，共同构成了完整的模型训练生命周期，是构建高性能对话式AI系统的标准方法。

引言

近年来，以ChatGPT、Claude、LLaMA为代表的大模型（Large Language Models, LLMs）在自然语言处理领域取得了突破性进展。这些模型展现出的强大对话能力、知识推理能力和指令遵循能力，很大程度上归功于一套系统化的训练范式——从大规模无监督预训练，到有监督微调，再到基于人类反馈的强化学习（RLHF）。这一完整训练周期不仅解决了传统预训练模型"对齐"（Alignment）问题，更使模型能够安全、有用、诚实地响应人类指令，成为当前构建对话式AI系统的标准流程。

全周期训练的核心意义在于：预训练阶段赋予模型基础语言能力和世界知识；有监督微调使模型学会遵循指令；奖励建模将人类偏好量化；强化学习阶段则通过优化策略使模型输出更符合人类价值观。这种多阶段渐进式训练方法，相比单一预训练或微调，在模型安全性、可控性和有用性方面实现了质的飞跃，是构建负责任AI系统的重要技术路径。

做一个形象的类比，这四个阶段相当于人的求学之路：

预训练阶段，相当于是小学生

有监督微调阶段，相当于是中学生

奖励建模阶段，相当于是大学生

强化学习阶段，相当于是社会人

同时在预训练阶段中所消耗的算力资源是最大的，大约相当于其他阶段的 10～100 倍，或者预训练所耗费的时间在整个训练过程中可能要占到 99% 以上。

预训练阶段

2.1 数据准备

预训练阶段使用大规模、多样化的无标注文本语料，数据规模通常在数百GB到数TB级别。数据来源包括网页爬取（如Common Crawl）、书籍、学术论文、代码仓库等。数据清洗和预处理是关键环节，需去除低质量文本、重复内容、有害信息，并进行去重、语言识别、格式标准化等操作。高质量的数据集是模型性能的基础保障。

2.2 模型架构

现代大模型普遍采用Transformer架构作为核心组件，具体包括：

自注意力机制（Self-Attention）：计算序列中每个位置与其他所有位置的关系权重，实现长距离依赖建模

多头注意力（Multi-Head Attention）：并行计算多个注意力头，捕获不同类型的依赖关系

前馈神经网络（Feed-Forward Network）：对每个位置进行非线性变换

残差连接和层归一化：缓解梯度消失，加速训练收敛

主流架构分为自回归模型（如GPT系列）和自编码模型（如BERT），大语言模型多采用自回归架构，通过因果掩码确保生成时的自回归特性。

2.3 生成基础模型

用于训练的语料样本包含如此之多的 Token，它们应该如何送入 GPT Transformer 中呢？它并非一个挨一个的送入，而是以一批一批的送入，每一批次的数据可以看成一个数组，其大小为 B * T：

B: 是数组的行数

T: 是超参数中的上下文长度

当然，上图中 B=4/T=10 仅仅是一个例子，实际训练中，B 和 T 的取值都是比较大的，而超参数Batch Size 设置的就是每次批量传输的的数据量，GPT3-175B 和 LLaMA2-65B 分别有 3.2M 和 4M。

每条训练语料，都会有一个结束符 <|endoftext|> ，即图中红色的 50256 向量值，它指示 Transformer 上一条语料已经结束，下一条语料即将开始。

GPT Transformer 是一个拥有超大规模参数的深度神经网络模型，正是这些参数的取值（权重）组合在一起，才能输出了相应的预测结果（概率），而 Transformer 就是通过预测结果，再反向更新自己的参数权重。这个过程叫做反向传播，是预训练中重要的一步，也是产生最大消耗的一步，因为这种更新不是一次性完成的，而是多次迭代，逐步逼近的过程。

有监督微调（Supervised Fine-Tuning, SFT）

在这个阶段需要收集少量但是高质量的数据集。

算法是没有变化的，只是换了一个训练集，然后进行语言建模，在训练之后，得到一个SFT模型（有监督的微调模型），你可以实际部署这些模型，它们是真正的助手，并且在某种程度上是有用的

3.1 SFT 监督微调基本概念

SFT（Supervised Fine-Tuning）监督微调是指在源数据集上预训练一个神经网络模型，即源模型。然后创建一个新的神经网络模型，即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识，且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关，因此在目标模型中不予采用。微调时，为目标模型添加一个输出大小为目标数据集类别个数的输出层，并随机初始化该层的模型参数。在目标数据集上训练目标模型时，将从头训练到输出层，其余层的参数都基于源模型的参数微调得到。

3.2 监督微调的特点

监督式微调能够利用预训练模型的参数和结构，避免从头开始训练模型，从而加速模型的训练过程，并且能够提高模型在目标任务上的表现。监督式微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先，需要大量的标注数据用于目标任务的微调，如果标注数据不足，可能会导致微调后的模型表现不佳。其次，由于预训练模型的参数和结构对微调后的模型性能有很大影响，因此选择合适的预训练模型也很重要。

4.奖励建模（Reward Modeling）

4.1 概念：

在大语言模型完成 SFT 监督微调后，下一阶段是构建一个奖励模型来对问答作出得分评价。奖励模型源于强化学习中的奖励函数，能对当前的状态刻画一个分数，来说明这个状态产生的价值有多少。在大语言模型微调中的奖励模型是对输入的问题和答案计算出一个分数。输入的答案与问题匹配度越高，则奖励模型输出的分数也越高。

4.2 架构：

奖励模型（RM 模型）将 SFT 模型最后一层的 softmax 去掉，即最后一层不用 softmax，改成一个线性层。RM 模型的输入是问题和答案，输出是一个标量即分数。

由于模型太大不够稳定，损失值很难收敛且小模型成本较低，因此，RM 模型采用参数量为 6B 的模型，而不使用 175B 的模型。

奖励模型的训练数据是人工对问题的每个答案进行排名，如下图所示：

对于每个问题，给出若干答案，然后工人进行排序，而奖励模型就是利用排序的结果来进行反向传播训练.

奖励模型的损失函数采用Pairwise Ranking Loss，公式如下所示：

l o s s ( θ ) = − ( K 2 ) 1 E ( x , y w , y l ) D [ l o g ( σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ) ] loss(θ)=−(K2)1E(x,yw,yl) D[log(σ(rθ(x,yw)−rθ(x,yl)))]loss(θ)=−(K2)1E(x,yw,yl)D[log(σ(rθ(x,yw)−rθ(x,yl)))]

其中：

D：人工对答案进行排序的数据集；

x：数据集D中的问题；

K：每个问题对应的答案数量；

yw和yl：问题x对应的K个答案中的两个，且yw的排序比yl高，由于是一对，也称 pairwise； rθ(x,y)：需要训练的 RM 模型，对于输入的一对x和y得到的标量分数；

θ：RM 模型需要优化的参数。

奖励模型通过与人类专家进行交互，获得对于生成响应质量的反馈信号，从而进一步提升大语言模型的生成能力和自然度。与监督模型不同的是，奖励模型通过打分的形式使得生成的文本更加自然逼真，让大语言模型的生成能力更进一步。

强化学习（PPO算法与RLHF流程）

5.1 PPO 强化学习概念

大模型完成奖励模型的训练后，下一个阶段是训练强化学习模型（RL 模型），也是最后一个阶段。大模型微调中训练 RL 模型采用的优化算法是 PPO（Proximal Policy Optimization，近端策略优化）算法，即对设定的目标函数通过随机梯度下降进行优化。近端策略优化是一种深度强化学习算法，用于训练智能体在复杂环境中学习和执行任务。通过智能体的训练，使得其在与环境的交互中能够最大化累积回报，从而达成指定任务目标。这里的智能体在大语言模型中指的就是 RL 模型。

5.2 PPO 强化学习原理

RL 模型的初始模型采用 SFT 微调之后的大语言预训练模型。训练 RL 模型的数据集只需要收集问题集（Prompt 集），不需要对问题进行标注。问题集通过 RL 模型生成答案文本，然后将问题和答案输入上一步训练的 RW 模型进行打分，来评价生成的文本质量，而训练 RL 模型的目标是使得生成的文本要在 RW 模型上获得尽可能高的得分。

将初始语言模型的微调任务建模为强化学习（RL）问题，需要定义策略（policy）、动作空间（action space）和奖励函数（reward function）等基本要素。

策略就是基于该语言模型，接收 prompt 作为输入，然后输出一系列文本（或文本的概率分布）；而动作空间就是词表所有 token 在所有输出位置的排列组合；观察空间则是可能的输入 token 序列（即 prompt），为词表所有 token 在所有输入位置的排列组合；而奖励函数则是上一阶段训好的 RM 模型，配合一些策略层面的约束进行的奖励计算。该阶段流程如下图所示：

RL 模型训练的损失函数公式如下：

o b j e c t i v e ( ϕ ) = E ( x , y ) ∼ D π ϕ R L [ r θ ( x , y ) − β l o g ( π ϕ R L ( y ∣ x ) / π S F T ( y ∣ x ) ) ] + γ E x ∼ D p r e t r a i n [ l o g ( π ϕ R L ( x ) ) ] objective(ϕ)=E(x,y)∼DπϕRL[rθ(x,y)−βlog(πϕRL(y∣x)/πSFT(y∣x))]+γEx∼Dpretrain[log(πϕRL(x))]objective(ϕ)=E(x,y)∼DπϕRL[rθ(x,y)−βlog(πϕRL(y∣x)/πSFT(y∣x))]+γEx∼Dpretrain[log(πϕRL(x))]

总结：

本文系统梳理了大语言模型训练全周期的四个核心阶段：预训练、有监督微调、奖励建模和强化学习。这一多阶段训练范式已成为构建高性能对话式AI系统的标准方法，其核心价值在于：

能力基础构建：预训练阶段通过海量无标注数据学习语言统计规律和世界知识。

指令遵循能力：SFT阶段使模型学会理解并响应人类指令

偏好对齐：奖励建模和RLHF阶段将人类价值观编码到模型中，提升输出的有用性、安全性和诚实性

各阶段相互依赖、层层递进，缺一不可。预训练是基础，SFT是能力定向，RLHF是价值观对齐，共同构成完整的模型训练生命周期。

如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

大模型训练全周期详解：从预训练到RLHF的完整技术路径