NGBoost-shap方法回归任务，由斯坦福吴恩达团队提出，属于集成模型的一种2019年提出的-洪萨配资

NGBoost-shap方法回归任务，由斯坦福吴恩达团队提出，属于集成模型的一种2019年提出的，算是比较新的方法了自带数据集，可以直接运行，对模型采用shap进行分析，所有图所见即所得 python 代码

NGBoost这玩意儿最近在回归任务里挺火，作为吴恩达团队整出来的新活，它最骚的地方在于既能预测数值还能估计不确定性。咱们今天直接上手实操，用自带数据集快速搞个可复现的demo，顺带用SHAP把模型掰开了揉碎了看看。

先装个环境（别问，问就是pip大法好）：

pip install ngboost shap

上代码直接开整！先加载内置的糖尿病数据集：

from ngboost import NGBRegressor from sklearn.datasets import load_diabetes from sklearn.model_selection import train_test_split X, y = load_diabetes(return_X_y=True) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ngb = NGBRegressor(Dist=ngboost.distns.Normal, n_estimators=100) ngb.fit(X_train, y_train) # 预测时同时拿到预测值和置信区间 preds = ngb.pred_dist(X_test) print(f"均值预测示例：{preds.params['loc'][:3]}") print(f"标准差示例：{preds.params['scale'][:3]}")

这里用了正态分布作为基分布，n_estimators设到100能保证基础学习器足够多。预测结果直接返回分布参数，比普通回归只能输出个数值有意思多了。

接下来用SHAP扒开模型看细节：

import shap # 用TreeExplainer适配树模型结构 explainer = shap.TreeExplainer(ngb) shap_values = explainer.shap_values(X_test) # 特征重要性可视化 shap.summary_plot(shap_values, X_test, feature_names=load_diabetes().feature_names)

运行后会跳出两张神图：第一张是特征总体重要性，明显能看到s5（血清检测指标）和age对预测结果影响最大；第二张是特征作用方向图，每个点颜色代表特征值大小，能直观看到高年龄对应的预测值偏移方向。

想具体看单个预测案例？上force_plot：

# 选个有意思的样本观察 sample_idx = 15 shap.force_plot(explainer.expected_value, shap_values[sample_idx], X_test[sample_idx], feature_names=load_diabetes().feature_names)

这图看着就很有说服力——基线值在150左右，s5特征硬生生把预测结果拉低了20个点，bmi又给顶上去10个点。这种可视化比看表格里的系数值直观十个Level！

实测中发现NGBoost对参数挺敏感，把Dist换成LogNormal分布，预测区间立马变得右偏。SHAP分析时也会发现特征影响方向发生微妙变化，这说明模型结构的选择会直接影响可解释性结果。建议跑多个分布配置对比着看，特别是当业务场景对不确定性方向有要求时。

最后来个骚操作：把预测分布画出来看不确定性

import matplotlib.pyplot as plt plt.figure(figsize=(10,6)) plt.scatter(y_test, preds.params['loc'], alpha=0.5) plt.errorbar(y_test, preds.params['loc'], yerr=2*preds.params['scale'], fmt='o', alpha=0.3) plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--')

这个误差带可视化直接暴露了模型在极端值区域的预测乏力——当真实值超过250时，预测点明显偏离红色对角线，同时误差带急剧变宽。这种双重可视化把模型优缺点直接拍脸上，比单纯看R²得分带劲多了。

总结下来，NGBoost+SHAP的组合拳特别适合需要量化不确定性的场景（比如金融风控、医疗预测）。代码层面几乎零魔改就能出效果，但要注意分布假设对可解释性的影响。下次遇到产品经理说"我要个能解释的AI"，直接甩这个方案过去就完事了。

OSPF协议概述

一、引入①路由设备根据路由表转发数据包，路由表项可通过手动配置和动态路由协议生成；②静态路由比动态路由使用的带宽更少，且不占用CPU资源去计算和分析路由更新。如果网络结构比较简单，只需要配置静态路由即可，但是当…

李华

【完整源码+数据集+部署教程】危险场景检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

一、背景意义随着城市化进程的加快和工业化水平的提高，危险场景的发生频率逐渐上升，给人们的生命财产安全带来了严重威胁。传统的危险场景监测手段往往依赖于人工巡查和简单的监控设备，存在反应慢、覆盖面窄等缺陷，难以实现实时、…

李华

考研加油上岸祝福弹窗程序

https://www.bilibili.com/video/BV1zdBFBbEvj/https://www.bilibili.com/video/BV1zdBFBbEvj/ GraduateAnchor - 考研祝福弹窗程序项目简介 GraduateAnchor（考研上岸）是一个充满温暖与祝福的桌面应用程序，专为考研学子设计。程序运行后…

李华

【开题答辩全过程】以基于Java的打车拼车系统的设计与实现为例，包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人，语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

李华

算法杂谈：回溯路线

目录前言在动态规划中： 在bfs中： 前言对于普通的路线问题，我们可以存储全局变量path存储路线过程中的，一个个“点”。由于这些点就是按照顺序存储的，路线就是可以直接得到的。但是如果是动态规划，…

李华

OSPF协议概述

【故障检测】基于matlab CVA-PLSR风力涡轮机故障检测【含Matlab源码 14729期】

【完整源码+数据集+部署教程】危险场景检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

考研加油上岸祝福弹窗程序

【开题答辩全过程】以 基于Java的打车拼车系统的设计与实现为例，包含答辩的问题和答案

算法杂谈：回溯路线

【开题答辩全过程】以基于Java的打车拼车系统的设计与实现为例，包含答辩的问题和答案