一、最大似然估计概念
最大似然估计是一种参数估计方法,其核心思想是:
在已知观测数据的情况下,选择使得观测数据出现概率最大的参数值作为模型参数。
形式化描述:
- 假设我们有一组观测数据X=x1,x2,...,xnX = {x_1, x_2, ..., x_n}X=x1,x2,...,xn,它们服从某个概率分布f(x∣θ)f(x|\theta)f(x∣θ)(θ为模型参数)。
- 最大似然估计的目标是找到θ\thetaθ使得观测数据的联合概率(似然函数)最大:θ^∗MLE=argmax∗θL(θ)其中L(θ)=∏i=1nf(xi∣θ) \hat{\theta}*{MLE} = \arg\max*{\theta} L(\theta) \quad \text{其中} \quad L(\theta) = \prod_{i=1}^n f(x_i|\theta)θ^∗MLE=argmax∗θL(θ)其中L(θ)=i=1∏nf(xi∣θ)
- 在实际计算中,我们通常使用对数似然函数,因为乘积形式在计算机上容易下溢,并且对数函数单调递增,不改变最大值点:ℓ(θ)=lnL(θ)=∑i=1nlnf(xi∣θ) \ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i|\theta)ℓ(θ)=lnL(θ)=i=1∑nlnf(xi∣θ)
二、最大似然估计的直觉理解
核心直觉
- 想象你有一个模型(例如正态分布)和一些数据点
- MLE的做法是:找到一个参数,使得“生成这些观测数据的概率最大”
- 换句话说,“如果这个参数是对的,那么观测到的数据最合理”。
示例直观化
- 假设你在掷硬币,观测结果是H,T,H,H,TH, T, H, H, TH,T,H,H,T
- 硬币正面概率为ppp,MLE就是找ppp使观测到这些掷硬币结果的概率最大L(p)=p3(1−p)2 L(p) = p^3 (1-p)^2L(p)=p3(1−p)2
- 对L(p)L(p)L(p)求最大值(或对数似然ℓ(p)=3lnp+2ln(1−p)\ell(p) = 3\ln p + 2 \ln (1-p)ℓ(p)=3lnp+2ln(1−p)最大化)
- 得到 MLE 估计:p^=3/5=0.6\hat{p} = 3/5 = 0.6p^=3/5=0.6
三、MLE在逻辑回归中的应用
逻辑回归预测二分类问题,标签yi∈0,1y_i \in {0,1}yi∈0,1。
模型假设:pi=P(Y=1∣Xi)=σ(zi)=11+e−zi,zi=β0+∑j=1nβjxij p_i = P(Y=1|X_i) = \sigma(z_i) = \frac{1}{1+e^{-z_i}}, \quad z_i = \beta_0 + \sum_{j=1}^n \beta_j x_{ij}pi=P(Y=1∣Xi)=σ(zi)=1+e−zi1,zi=β0+j=1∑nβjxij
对样本iii,观测yiy_iyi的概率为:P(Y=yi∣Xi)=piyi(1−pi)1−yi P(Y=y_i|X_i) = p_i^{y_i} (1-p_i)^{1-y_i}P(Y=yi∣Xi)=piyi(1−pi)1−yi
对全体样本的似然函数:L(β)=∏i=1mpiyi(1−pi)1−yi L(\beta) = \prod_{i=1}^m p_i^{y_i} (1-p_i)^{1-y_i}L(β)=i=1∏mpiyi(1−pi)1−yi
对数似然函数:ℓ(β)=∑i=1m[yilnpi+(1−yi)ln(1−pi)] \ell(\beta) = \sum_{i=1}^m \Big[ y_i \ln p_i + (1-y_i) \ln (1-p_i) \Big]ℓ(β)=i=1∑m[yilnpi+(1−yi)ln(1−pi)]
训练目标:找到β\betaβ使ℓ(β)\ell(\beta)ℓ(β)最大,即最可能产生观测标签的数据分布。
β^∗MLE=argmax∗βℓ(β) \hat{\beta}*{MLE} = \arg \max*\beta \ell(\beta)β^∗MLE=argmax∗βℓ(β)
3.1 对数似然函数求解
逻辑回归无法直接解析求解β\betaβ(因为σ(z)\sigma(z)σ(z)非线性),所以采用迭代优化方法:
梯度上升法
- 迭代更新公式:β(t+1)=β(t)+η∂ℓ(β)∂β \beta^{(t+1)} = \beta^{(t)} + \eta \frac{\partial \ell(\beta)}{\partial \beta}β(t+1)=β(t)+η∂β∂ℓ(β)
- 对数似然梯度:∂ℓ(β)∂β=∑i=1m(yi−pi)xi \frac{\partial \ell(\beta)}{\partial \beta} = \sum_{i=1}^m (y_i - p_i) x_i∂β∂ℓ(β)=i=1∑m(yi−pi)xi
牛顿-Raphson法 / IRLS(迭代加权最小二乘)
- 在风控评分卡中常用
- 更新公式:β(t+1)=β(t)−H−1∇ℓ(β) \beta^{(t+1)} = \beta^{(t)} - H^{-1} \nabla \ell(\beta)β(t+1)=β(t)−H−1∇ℓ(β)
其中HHH为对数似然的 Hessian 矩阵
3.2 直观解释
- (yi−pi)(y_i - p_i)(yi−pi)表示预测误差
- 梯度告诉我们:如何调整参数,使模型预测概率pip_ipi更接近真实标签yiy_iyi
- 迭代直到对数似然函数不再显著增加 → 参数收敛 → MLE求得
四、MLE的性质
渐近无偏性
- 样本量足够大时,MLE是无偏的,即E[θ^]≈θ\mathbb{E}[\hat{\theta}] \approx \thetaE[θ^]≈θ
渐近有效性
- MLE方差最小,达到了 Cramer-Rao 下界
渐近正态性
- 样本量大时,θ^\hat{\theta}θ^服从正态分布:θ^∼N(θ,I−1(θ)) \hat{\theta} \sim N(\theta, I^{-1}(\theta))θ^∼N(θ,I−1(θ))
- 其中I(θ)I(\theta)I(θ)为 Fisher 信息矩阵
局限性
- 小样本可能有偏
- 对异常值敏感
- 需要模型假设正确
五、MLE在风控建模中的实战意义
概率预测
- 输出违约概率pip_ipi,可直接转化为评分卡分数
系数可解释性
- 每个βj\beta_jβj表示特征xjx_jxj对 log-odds 的影响
- 便于业务理解和监管审查
可扩展性
- 可与正则化(L1/L2)结合,处理高维特征
算法稳定性
- MLE与梯度优化结合,可在大规模数据上稳定训练
与 WOE 结合
- WOE分箱使特征与 log-odds 近似线性 → 满足 MLE线性假设
六、MLE总结
- 最大似然估计是逻辑回归训练的核心原理
- 通过最大化观测数据的似然函数,得到最可能的参数
- 优势:概率可解释、参数直观、可结合正则化
- 在风控中,与 WOE 分箱、评分卡转换、线上审批决策紧密结合