工程师学AI之第五篇：从微积分梯度及链式法则，到神经网络学习优化过程-洪萨配资

通过前面几篇学习，我们了解到神经网络核心数学理论包括向量（数据结构）→ 概率（决策框架）→ 优化（实现手段）。前两篇学习了线性代数（万物皆可向量）、概率论（为AI提供不确定性量化与决策的框架），本章我们主要学习深度网络优化算法，优化指的是改变x以最小化或最大化某个函数f(x)的任务。在神经网络的学习中，寻找最优参数（权重和偏置）时，要寻找使损失函数的值尽可能小的参数。

那么，我们该如何找到使损失函数的值尽可能小的方法？这里需要用到微积分数学知识，通过计算参数的导数（确切讲是梯度），然后以这个导数为指引逐步更新参数的值。本章让我们来一起学习回顾下微积分导数、梯度相关知识，及其在神经网络中的作用。

1）什么是微积分？导数？梯度？what

2）为什么神经网络学习过程需要使用导数/梯度？why

3）神经网络学习过程如何使用梯度法寻找最优参数？how

4）神经网络学习算法案例：实践理解。

1.什么是微积分？

微积分 (Calculus)是数学的一个分支，是深度学习中不可或缺的一部分，主要用于优化问题。在深度学习中，我们“训练”模型，不断更新它们，使它们在看到越来越多的数据时变得越来越好。通常情况下，变得更好意味着最小化一个损失函数（loss function），即一个衡量“模型有多糟糕”这个问题的分数。最终，我们真正关心的是生成一个模型，它能够在从未见过的数据上表现良好。但“训练”模型只能将模型与我们实际能看到的数据相拟合。因此，我们可以将拟合模型的任务分解为两个关键问题：

1）优化（optimization）：用模型拟合观测数据的过程；

2）泛化（generalization）：数学原理和实践者的智慧，能够指导我们生成出有效性超出用于训练的数据集本身的模型。

1.1基本概念

微积分是模型如何从数据中“学习”的理论基础。它的核心任务是回答：如何调整模型参数，才能让它表现得更好？微积分与深度学习相关的基本概念脉络如下，主要包括：微积分、导数、偏导数、梯度、链式法则等基本概念。

1）微积分：微分和积分是微积分的两个分支，前者可以应用于深度学习中的优化问题。

➢ 微分 (Differential Calculus)：核心是导数，主要用于解决优化问题。研究的是事物在某一瞬间变化的速率（即“瞬时变化率”）。比如，计算瞬时速度、曲线斜率。导数

➢ 积分 (Integral Calculus)：古希腊人为了求出曲线形状（比如圆）的面积，通过内接多边形计算圆的面积的过程被称为逼近法（method of exhaustion）。逼近法就是积分（integral calculus）的起源。

2）导数 (Derivative)：单变量函数的输出值随输入值变化的瞬时变化率或斜率。本质上反映了函数在某一点的瞬时变化率，它能告诉我们函数值如何随输入的微小变化而变化。在神经网络中，导数的意义在于“求解每一个神经元节点对于最终结果的影响“。

假设我们有一个函数f（x），其输入和输出都是标量。极限法求解导数：

如果存在f‘（a）存在，则称在a处是可微（differentiable）的。如果在一个区间内的每个数上都是可微的，则此函数在此区间中是可微的。

deffunction(x):""" 计算函数值 f(x)=3x^2 - 4x. """return3* x **2-4* xdefapproximate_derivative(func, x, h):""" 使用差分商方法近似计算导数.(f(x+h)-f(x))/h 参数: func: 目标函数 x: 在此点计算导数 h: 小增量 返回:导数的近似值 """return(func(x + h)- func(x))/ h#逼近法：当 h 越来越小时，(f(x+h)-f(x))/h 趋近于 f'(x)。#说明：我们用 approximate_derivative 实现了逼近导数的极限概念。#当h越小，(f(x+h)−f(x)) / h 越能逼近 “斜率”。这里的数值实验并非数学证明，但可以显示当h→0时，function的结果非常接近2，暗合你用普通微分法则计算得出的 f'(1)=2。defmain():# 计算 f(x)=3x^2 - 4x 在 x=1 处的导数近似值print("f(x)=3x^2 - 4x 在 x=1 处的导数近似值：") h =0.1for _ inrange(10): derivative = approximate_derivative(function,1, h)print(f"h = {h:.5f}, 近似导数 = {derivative:.5f}") h *=0.1if __name__ =="__main__": main()

3）偏导数：导数是仅含一个变量的函数的微分。在深度学习中，函数通常依赖于许多变量。因此，我们需要将微分的思想推广到多元函数（multivariate function）上。设y=f(x1,x2,…,xn)是一个具有个变量的函数。关于第个参数的偏导数（partial derivative）为：

为了计算y关于xi的导数，我们可以简单地将其他变量看作常数，对于偏导数的表示，以下是等价的：

4）梯度：导数概念在多变量函数上的推广，如果一个函数的输入不是单个变量x，而是一个向量 X= (x_1, x_2, …, x_n)（例如，神经网络有成千上万个参数），我们就需要梯度。它是一个向量，指向函数值增长最快的方向。在机器学习中，损失函数 L(θ) 的梯度 ∇L(θ) 指向了损失增长最快的方向，而负梯度则指向函数值下降最快的方向。

简单总结：导数是标量（单变量）的“斜率”，梯度是向量（多变量）的“斜率”，它指明了 multivariable 函数在某个点变化最快的方向。我们可以连结一个多元函数对其所有变量的偏导数，以得到该函数的梯度（gradient）向量。具体而言，设函数f（X）的输入是X一个n维向量：X=(x1,x2,…xn)，并且输出是一个标量。函数f(X)相对于输入向量X的梯度是一个包含n个偏导数的向量:

1.2常见函数导数计算

1.2.1幂函数的导数

1.2.2指数函数和对数函数的导数

1.2.3三角函数的导数

1.2.4反三角函数的导数

1.2.5双曲函数的导数

1.3 运算法则

1.3.1导数计算法则

1.3.2导数的链式法则

神经网络是深度复合函数（L(g(f(x)))），链式法则允许我们将损失函数对最底层参数的导数，一层一层地反向传播回去。这是反向传播算法的核心。假设函数y=f(u),u=g(x)和都是可微的，根据链式法则：

现在考虑一个更一般的场景，即函数具有任意数量的变量的情况。假设可微分函数y有变量u1,u2…un，其中每个可微分函数ui都有变量x1,x2…xn。注意，y是x1,x2…xn的函数。对于任意i=1,2…n，链式法则给出：

2.为什么神经网络学习过程需要使用微积分？

在微分学最重要的应用是优化问题，即考虑如何把事情做到最好？这种问题在深度学习中是无处不在的，深度网络时，训练本质上就是 “让参数在梯度指引下向最小损失方向移动”；若没有微分运算、链式法则，我们也无法对网络做反向传播 (backprop)。神经网络学习的核心目标是"找到一组最优权重参数使得损失函数最小"。机器学习，特别是深度学习，通常通过优化损失函数来对网络进行训练，在深度学习中的意义因为参数太多，无法暴力搜索。因此在这个过程中，矩阵微积分(matrix calculus) 至关重要。

1）问题规模巨大：一个现代神经网络的参数（权重和偏置）数量轻松达到百万、千万甚至十亿级别。损失函数是所有这些参数的函数，其图像是一个在超高维空间中的“曲面”（称为损失曲面）。我们无法可视化它，更不可能通过枚举所有可能的参数组合（暴力搜索）来找到最低点。

2）需要一种指引：几乎所有优化流程都建立在梯度下降之上，而梯度依赖可微函数（导数）。我们常假设损失函数相对于参数是可微的，这样就能应用链式法则来完成反向传播。类似我们就像被困在一个超高维的山地中，四周大雾弥漫，看不见全貌（不知道最低点在哪），只能靠脚感受地面的倾斜。梯度就是这个“脚下的感觉”。它精确地告诉我们，在当前所处的位置，哪个方向是“下坡”最陡的方向。沿着梯度指引的方向（更准确地说，是梯度的反方向）更新参数，可以最高效、最快速地降低损失函数的值。这是一种定向搜索，远比随机搜索高效得多。因此，梯度为我们提供了在复杂、高维的损失函数 landscapes中导航的“罗盘”，指引我们走向最优解。

3.神经网络训练中如何使用微积分？

深度学习的本质就是在学习时寻找最优参数（权重w和偏置b），这里的最优参数是指损失函数取最小值时的参数。然而，损失函数往往很复杂，参数空间庞大，我们不知道他在何处能取得最小值，梯度法为我们提供了寻找损失函数最小值的方法，导数、偏导数、梯度和链式法则是优化算法的数学基石，反向传播、梯度下降、参数更新，都离不开它们。简单理解：微积分提供了“如何调整模型内部旋钮（参数）才能让它表现得更好”的精确指导手册。

微积分中的梯度是连接损失函数（我们想最小化的目标）和神经网络参数（我们可以改变的东西）之间的桥梁。反向传播是高效计算这座桥梁的算法。梯度下降法则是踩着这座桥梁，一步步走向目的地（模型最优解）的导航策略。这就是现代神经网络能够从数据中“学习”的根本数学原理，也是AI看似“智能”背后的坚实数理基础。

3.1梯度法优化过程是怎样的？

梯度下降法 (Gradient Descent)。其核心思想非常简单：沿着梯度的反方向，以小步幅不断迭代更新参数，逐步逼近损失函数的最小值。利用计算出的梯度，沿着梯度相反的方向（即损失下降最快的方向）微调所有参数（那些矩阵中的数），从而逐步降低损失，使模型预测更准确。既然梯度指向损失增长的方向，那么它的反方向 -∇L(θ) 就是损失下降最快的方向。

更新规则：θ_new = θ_old - learning_rate * ∇L(θ_old)，通过不断沿负梯度方向微小地更新参数θ，损失函数的值会逐渐减小，模型性能逐步提升。在大模型中的应用：整个训练过程就是基于梯度下降及其变体来优化数百万甚至万亿级的参数，最小化预测损失。

简单比喻：损失函数就像是一座山的高度（误差大小），梯度就像是山的坡度（最陡下降方向），梯度下降就像是沿着最陡的下坡方向行走（参数更新过程）。

3.2为什么深度学习需要链式法则？反向传播中的关键作用

深度神经网络本质上就是一个巨大的复合函数，链式法则是反向传播算法的数学基础和核心引擎。反向传播本质上是链式法则在神经网络这个特定复合函数结构中的系统化、高效的应用。通过链式法则，从输出层反向计算损失函数对于网络中每一个参数的梯度。

1）局部计算：链式法则允许我们将复杂的全局导数分解为简单的局部导数的乘积。每一层只需要计算自己对输入的导数，而不需要知道整个网络的细节。

2）计算效率：通过从输出层向输入层反向传播误差，我们可以复用中间计算结果，避免了重复计算，大大提高了计算效率。

3）模块化：链式法则使得反向传播算法可以应用于任意深度的神经网络和任意类型的层（全连接层、卷积层、循环层等），只要我们能定义该层的前向传播和局部导数。

4）自动微分：现代深度学习框架（如PyTorch）利用链式法则实现自动微分，开发者只需定义前向传播，框架会自动计算梯度。

从一个简单的复合函数理解什么是链式法则？假设有一个函数：y = (3x + 1)³，如果我们想计算dy/dx，有两种方法。

1）先展开再求导（复杂）：展开计算过程比较复杂。

2）用链式法则（简单）：链式法则就是把复杂的复合函数分解成简单的部分，分别求导，然后相乘。

假设u = 3x + 1，则y = u³，那么dy/du= 3u²，du/dx=3，因此：

dy/dx = (dy/du) × (du/dx) = (3u²) ×(3) = 9(3x + 1)²

再比如假设某个3层神经网络：如果我们想知道第1层的权重w₁如何影响最终的损失Loss，该怎么计算？直接计算∂Loss/∂w₁是很困难的，因为Loss和w₁之间隔了好几层。

h₁ = f₁(x, w₁) # 第1层：h₁是x和w₁的函数h₂ = f₂(h₁,w₂) # 第2层：h₂是h₁和w₂的函数 y = f₃(h₂,w₃) # 第3层：y是h₂和w₃的函数Loss = L(y, target) # 损失：Loss是y的函数

但是用链式法则，我们可以把这个复杂的关系分解：

∂Loss/∂w₁ = (∂Loss/∂y) × (∂y/∂h₂) × (∂h₂/∂h₁) × (∂h₁/∂w₁)

这样我们只需计算每一步的简单偏导数，然后把它们乘起来就得到了最终结果。

4.神经网络案例：理解反向传播

神经网络存在合适的权重和偏置，调整权重和偏置以便你和训练数据的过程为“学习”。为了展示如何将神经网络和梯度下降法应用于实际的医疗诊断问题，通过反向传播算法自动学习从特征到诊断结果的映射关系。本章通过使用一个简单的全连接神经网络来监测乳腺癌（二分类问题）。数据集使用威斯康星乳腺癌数据集。步骤：

1）加载数据并预处理（标准化）：

✧ 加载威斯康星乳腺癌数据集

✧ 标准化特征数据（均值为0，方差为1）

✧ 划分训练集和测试集（80%训练，20%测试）

2）构建神经网络模型：定义神经网络架构

✧ 输入层：30个特征（乳腺癌特征）

✧ 隐藏层：10个神经元（使用Sigmoid激活函数）

✧ 输出层：1个神经元（二元分类，使用Sigmoid激活函数）

3）定义损失函数和优化器：使用二元交叉熵作为损失函数

4）训练模型（前向传播、反向传播、梯度下降）

✧ 1.初始化：随机设置网络参数的初始值

✧ 2.前向传播：输入训练数据，计算各层输出，得到最终预测值

✧ 3.计算损失：比较预测值与真实值，计算损失函数值

✧ 4.反向传播：计算损失函数对每个参数的梯度（导数）

✧ 5.参数更新：沿梯度反方向调整参数，减小损失（使用梯度下降法更新权重和偏置）

✧ 6.重复迭代：重复步骤2-5，直到模型性能满足要求

5）评估模型

✧ 计算测试集准确率

✧ 生成混淆矩阵

✧ 计算精确率、召回率和F1分数

✧ 绘制训练过程中的损失和准确率曲线

import numpy as npimport pandas as pdfrom sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerimport matplotlib# 使用非交互式后端，避免图形显示问题matplotlib.use('Agg')# 使用Agg后端，不显示图形窗口import matplotlib.pyplot as pltclassNeuralNetwork:def__init__(self, input_size, hidden_size, output_size):"""初始化神经网络参数"""# 初始化权重和偏置（使用小随机数） self.W1 = np.random.randn(input_size, hidden_size)*0.01 self.b1 = np.zeros((1, hidden_size)) self.W2 = np.random.randn(hidden_size, output_size)*0.01 self.b2 = np.zeros((1, output_size))defsigmoid(self, x):"""Sigmoid激活函数"""return1/(1+ np.exp(-np.clip(x,-500,500)))# 防止溢出defsigmoid_derivative(self, x):"""Sigmoid函数的导数"""return x *(1- x)defforward(self, X):"""前向传播""" self.z1 = np.dot(X, self.W1)+ self.b1 # 第一层加权和 self.a1 = self.sigmoid(self.z1)# 第一层激活输出 self.z2 = np.dot(self.a1, self.W2)+ self.b2 # 第二层加权和 self.a2 = self.sigmoid(self.z2)# 输出层预测概率return self.a2defbackward(self, X, y, output):"""反向传播计算梯度""" m = X.shape[0]# 样本数量# 计算输出层误差 (损失函数对输出的导数) self.dz2 = output - y# 计算第二层权重和偏置的梯度 self.dW2 = np.dot(self.a1.T, self.dz2)/ m self.db2 = np.sum(self.dz2, axis=0, keepdims=True)/ m# 计算第一层误差 (链式法则) self.dz1 = np.dot(self.dz2, self.W2.T)* self.sigmoid_derivative(self.a1)# 计算第一层权重和偏置的梯度 self.dW1 = np.dot(X.T, self.dz1)/ m self.db1 = np.sum(self.dz1, axis=0, keepdims=True)/ mdefupdate_parameters(self, learning_rate):"""使用梯度下降更新参数""" self.W1 -= learning_rate * self.dW1 self.b1 -= learning_rate * self.db1 self.W2 -= learning_rate * self.dW2 self.b2 -= learning_rate * self.db2defcompute_loss(self, y, output):"""计算二元交叉熵损失""" m = y.shape[0]# 添加微小值防止log(0) loss =-np.sum(y * np.log(output +1e-9)+(1- y)* np.log(1- output +1e-9))/ mreturn lossdefpredict(self, X):"""预测函数"""return np.round(self.forward(X))defaccuracy(self, X, y):"""计算准确率""" predictions = self.predict(X)return np.mean(predictions == y)defload_and_preprocess_data():"""加载和预处理乳腺癌数据集"""# 加载数据集 data = load_breast_cancer() X = data.data y = data.target.reshape(-1,1)# 转换为列向量# 数据标准化 scaler = StandardScaler() X = scaler.fit_transform(X)# 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y)return X_train, X_test, y_train, y_test, data.feature_namesdeftrain_neural_network():"""训练神经网络主函数"""# 加载和预处理数据 X_train, X_test, y_train, y_test, feature_names = load_and_preprocess_data()# 设置网络参数 input_size = X_train.shape[1]# 输入特征数 hidden_size =10# 隐藏层神经元数 output_size =1# 输出层神经元数（二分类） learning_rate =0.1# 学习率 epochs =2000# 训练轮数# 初始化神经网络 nn = NeuralNetwork(input_size, hidden_size, output_size)# 存储训练过程中的损失和准确率 train_losses =[] test_losses =[] train_accuracies =[] test_accuracies =[]# 训练循环for i inrange(epochs):# 前向传播 output = nn.forward(X_train)# 计算损失 train_loss = nn.compute_loss(y_train, output)# 反向传播 nn.backward(X_train, y_train, output)# 更新参数 nn.update_parameters(learning_rate)# 记录训练过程if i %100==0:# 计算测试集损失 test_output = nn.forward(X_test) test_loss = nn.compute_loss(y_test, test_output) train_acc = nn.accuracy(X_train, y_train) test_acc = nn.accuracy(X_test, y_test) train_losses.append(train_loss) test_losses.append(test_loss) train_accuracies.append(train_acc) test_accuracies.append(test_acc)print(f"Epoch {i}: Train Loss = {train_loss:.4f}, Test Loss = {test_loss:.4f}, "f"Train Acc = {train_acc:.4f}, Test Acc = {test_acc:.4f}")# 最终评估 final_train_acc = nn.accuracy(X_train, y_train) final_test_acc = nn.accuracy(X_test, y_test)print(f"\n最终结果: 训练准确率 = {final_train_acc:.4f}, 测试准确率 = {final_test_acc:.4f}")# 绘制训练过程try: plot_training_process(train_losses, test_losses, train_accuracies, test_accuracies)except Exception as e:print(f"绘制图形时出错: {e}")return nn, X_test, y_testdefplot_training_process(train_losses, test_losses, train_accuracies, test_accuracies):"""绘制训练过程中的损失和准确率变化""" epochs =range(0,len(train_losses)*100,100) plt.figure(figsize=(12,5))# 绘制损失曲线 plt.subplot(1,2,1) plt.plot(epochs, train_losses, label='训练损失') plt.plot(epochs, test_losses, label='测试损失') plt.xlabel('训练轮数') plt.ylabel('损失值') plt.title('训练和测试损失') plt.legend() plt.grid(True)# 绘制准确率曲线 plt.subplot(1,2,2) plt.plot(epochs, train_accuracies, label='训练准确率') plt.plot(epochs, test_accuracies, label='测试准确率') plt.xlabel('训练轮数') plt.ylabel('准确率') plt.title('训练和测试准确率') plt.legend() plt.grid(True) plt.tight_layout() plt.savefig('breast_cancer_training.png', dpi=300, bbox_inches='tight')print("训练过程图表已保存为 'breast_cancer_training.png'")# 尝试关闭图形，避免内存泄漏 plt.close()# 主程序入口if __name__ =="__main__":print("开始训练乳腺癌监测神经网络...")try: model, X_test, y_test = train_neural_network()# 在测试集上进行预测 predictions = model.predict(X_test)# 计算混淆矩阵 true_negatives = np.sum((predictions ==0)&(y_test ==0)) false_positives = np.sum((predictions ==1)&(y_test ==0)) false_negatives = np.sum((predictions ==0)&(y_test ==1)) true_positives = np.sum((predictions ==1)&(y_test ==1))print("\n混淆矩阵:")print(f"真阴性 (TN): {true_negatives}")print(f"假阳性 (FP): {false_positives}")print(f"假阴性 (FN): {false_negatives}")print(f"真阳性 (TP): {true_positives}")# 计算评估指标 accuracy =(true_positives + true_negatives)/len(y_test) precision = true_positives /(true_positives + false_positives)if(true_positives + false_positives)>0else0 recall = true_positives /(true_positives + false_negatives)if(true_positives + false_negatives)>0else0 f1_score =2*(precision * recall)/(precision + recall)if(precision + recall)>0else0print(f"\n评估指标:")print(f"准确率: {accuracy:.4f}")print(f"精确率: {precision:.4f}")print(f"召回率: {recall:.4f}")#F1-Score是精确率(Precision)和召回率(Recall)的调和平均数，其值范围在0到1之间，1表示最佳性能，0表示最差性能。print(f"F1分数: {f1_score:.4f}")except Exception as e:print(f"程序运行出错: {e}")import traceback traceback.print_exc()

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

工程师学AI之第五篇：从微积分梯度及链式法则，到神经网络学习优化过程

1.什么是微积分？

1.1基本概念

1.2常见函数导数计算

1.2.1幂函数的导数

1.2.2指数函数和对数函数的导数

1.2.3三角函数的导数

1.2.4反三角函数的导数

1.2.5双曲函数的导数

1.3 运算法则

1.3.1导数计算法则

1.3.2导数的链式法则

2.为什么神经网络学习过程需要使用微积分？

3.神经网络训练中如何使用微积分？

3.1梯度法优化过程是怎样的？

3.2为什么深度学习需要链式法则？反向传播中的关键作用

4.神经网络案例：理解反向传播

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

1. 100+本大模型方向电子书

2. 26 份行业研究报告：覆盖多领域实践与趋势

3. 600+套技术大会 PPT：听行业大咖讲实战

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

2. 102 道 AI 大模型真题：直击大模型核心考点

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L2阶段：攻坚篇丨RAG开发实战工坊

L3阶段：跃迁篇丨Agent智能体架构设计

L4阶段：精进篇丨模型微调与私有化部署

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

AI Deadlines：科研人的智能会议管理终极指南

DeepSeek-V3.1：混合思维模式引领大模型效率革命

Zotero-reference插件：重新定义学术文献管理新体验

解锁课程论文新捷径：宏智树AI科研工具的智慧助力之旅

Wan2.2开源：MoE架构解决视频生成成本困局，消费级GPU实现电影级创作

D2DX：让经典《暗黑破坏神II》在现代PC上重获新生

1.什么是微积分？

1.1基本概念

1.2常见函数导数计算

1.2.1幂函数的导数

1.2.2指数函数和对数函数的导数

1.2.3三角函数的导数

1.2.4反三角函数的导数

1.2.5双曲函数的导数

1.3 运算法则

1.3.1导数计算法则

1.3.2导数的链式法则

2.为什么神经网络学习过程需要使用微积分？

3.神经网络训练中如何使用微积分？

3.1梯度法优化过程是怎样的？

3.2为什么深度学习需要链式法则？反向传播中的关键作用

4.神经网络案例：理解反向传播

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

1. 100+本大模型方向电子书

2. 26 份行业研究报告：覆盖多领域实践与趋势

3. 600+套技术大会 PPT：听行业大咖讲实战

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

2. 102 道 AI 大模型真题：直击大模型核心考点

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L2阶段：攻坚篇丨RAG开发实战工坊

L3阶段：跃迁篇丨Agent智能体架构设计

L4阶段：精进篇丨模型微调与私有化部署

L5阶段：专题集丨特训篇 【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

AI Deadlines：科研人的智能会议管理终极指南

DeepSeek-V3.1：混合思维模式引领大模型效率革命

Zotero-reference插件：重新定义学术文献管理新体验

解锁课程论文新捷径：宏智树AI科研工具的智慧助力之旅

Wan2.2开源：MoE架构解决视频生成成本困局，消费级GPU实现电影级创作

D2DX：让经典《暗黑破坏神II》在现代PC上重获新生

L5阶段：专题集丨特训篇【录播课】