这段时间在看一篇文章,但是当文章讲到损失函数部分时我就开始有点模糊了,因为我记不起来损失函数的相关数学概念了,那就从下面三个方面来对知识点进行巩固:
- 损失函数基本概念
- 损失函数数学原理
- 常见损失函数
1. 损失函数基础概念:是衡量模型预测结果与真实标签之间差异的数学函数
在监督学习中,我们的核心目标是找到最优参数 ,使得损失函数最小化:
2. 损失函数数学原理:
比较两个概率模型(一个是确定的现实模型,一个是我们设计的概率模型)
1)最小二乘法:
这里的1/2是为了求导方便
2)最大似然:
概率是从事件推结果,似然是从结果(概率)推事件
似然函数的推导过程:
这里使用log将连乘变成连加(同时log不改变其单调性)
添加-号将寻找最大值问题变成寻找最小值
3)信息论基础:
不同类型的模型可以使用熵来进行统一衡量,熵越大越混乱,此处应该寻找熵的最小值
信息量:一个系统从不确定变得确定难度有多大
为满足逻辑(下图公式2)自洽则信息量公式中应该有log
熵的计算公式:
相对熵(KL散度):这里是以P为基准,看Q与P的距离
交叉熵:(这里P是人脑对应的模型,Q是用于分类的模型,此任务用于判断是不是猫)
3. 较为常见的损失函数两类:
(1)均方差损失函数(MSE)
通过计算模型预测值与真实值之间差值的平方的平均值,衡量回归任务中预测结果的准确性,旨在使预测值尽可能接近真实值。
(2)交叉熵损失函数(CE)
用于衡量分类任务中模型预测的概率分布与真实标签之间的差异,旨在通过最小化损失来使模型预测更加接近真实类别。
结合不同任务特性选用适配的损失函数,可参考知乎文章:(59 封私信 / 30 条消息) 深度学习损失函数完全指南:理论、实现与应用 - 知乎