news 2026/3/20 13:12:12

方法学革新:工具变量因果森林如何破解因果谜题?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
方法学革新:工具变量因果森林如何破解因果谜题?

源自风暴统计网:一键统计分析与绘图的网站

最近老郑分享了很多因果推断的前沿方法学推文,今天介绍另一种前沿方法,工具变量因果森林。

2025年11月发表在《International Journal of Epidemiology》(医学二区,IF=5.9)的一项研究,是一篇典型的因果推断研究,采用工具变量因果森林这一前沿机器学习方法,探究退休对认知功能的异质性影响。

下面一起从这篇文章中学习一下这个前沿方法!


研究争议,退休与认知功能的谜题

“我是不是该晚点退休,多动动脑子防痴呆?”这可能是很多人的传统观念,许多临近退休的人都有这样的担忧。

一些研究认为,工作能保持大脑活跃,退休会导致“用进废退”;另一些研究则发现,工作压力可能加速认知衰退,退休反而是解脱。

因此,本研究探讨了退休是否对认知功能有影响?这种影响是否因个体特征和国家背景而异?

研究团队使用了三个国际标准化老龄化调查的三波次数据:HRS(美国健康与退休研究)、ELSA(英国老龄化追踪研究)、SHARE(欧洲健康、老龄化与退休调查)。

研究涵盖三个时间段数据,严格分离暴露、协变量与结局的测量时间点,避免反向因果。

  • 第一波(2014/2015):收集60个基线协变量

  • 第二波(2016/2017):确定退休状态

  • 第三波(2018/2019):评估认知功能结局

研究选择“国家法定退休年龄”作为退休的工具变量,解决退休决策的内生性问题,这让研究者能够区分退休的真正影响,而不是其他混淆因素。”

结局变量:认知功能。情景记忆被用作衡量认知功能的一项指标。情景记忆指的是回忆过去经历的能力,这一能力通常会随着年龄的增长而下降。参与者听到了 10 个常见的单词,并立即由采访者要求他们尽可能多地回忆这些单词。大约 5 分钟后,他们又被要求再次回忆这些单词。因此,他们回忆起的单词总数(范围从 0 到 20 个)代表了他们的情景记忆功能,这与之前的研究结果一致。

方法革新,机器学习破解因果关系难题

研究者比较了使用四种方法估计的平均处理效应(ATE)。

  • 参数化的普通最小二乘法 (OLS)

  • 两阶段最小二乘法 (2SLS)

  • 不含工具变量的非参数因果森林 (non-IV forests)

  • 工具变量因果森林 (IV forests)

对于参数化方法,研究者根据在已训练的工具变量因果森林中的重要性,选择了10个协变量进行调整。

非参数方法的平均处理效应通过残差对残差回归法获得。

✅ 接下来重点讲讲工具变量因果森林方法如何应用的。

1.工具变量因果森林方法将用于工具变量估计的广义矩估计法,与随机森林相结合,以识别相似的处理效应。

2.工具变量因果森林纳入了来自第一波调查的60个经过协调统一的协变量。

3.为了减轻潜在的反向因果关系,纳入了认知功能的基线得分。

4.研究者假设数据为随机缺失,缺失值使用基于随机森林的算法进行填补。

5.训练完成后,由于极端倾向得分会破坏估计的稳定性,所以研究者将分析限制在退休倾向得分介于0.1至0.9之间的7432名个体。相当于排除了那些“无论如何都会退休”和“无论如何都不会退休”的极端人群,专注于那些退休决定可能受到政策影响的人群,使结果更具政策参考价值。

因此,这项研究的工具变量因果森林估计量代表的是重叠人口上的条件局部平均处理效应(CLATO)。

6.随后,将观测值按条件局部平均处理效应从Q1到Q5分为五等分组,并比较了各组间在社会人口学特征、健康与行为以及国家分布上的差异。

7.P值使用Bonferroni方法进行了调整。

8.敏感性分析:进行了多项敏感性分析以确认研究结果的稳健性。这些分析包括:将样本限制在55至75岁之间、排除部分退休的个体、仅分析全职雇员,以及排除样本量最大的美国数据。

退休对认知功能有显著的积极影响

1.整体效应

  • 研究使用最前沿的工具变量因果森林方法估计,退休者比仍在工作者平均能多回忆1.348个单词。

  • 传统的工具变量方法(2SLS)也发现了正向关联(0.962个单词),但效应值小于IV森林的估计。

  • 使用普通最小二乘法(OLS)和非工具变量法的因果森林构建的初步分析未发现退休与认知功能之间存在关联。

  • 工具变量的有效性通过 F 统计量 163.037(P < 0.0001)和Sargan统计量 1.177(P = 0.28)得到证实。

敏感性分析证实了主要发现的可靠性。

2.异质性分析

研究根据“条件局部平均处理效应(CLATO)”将人群分为五组(Q1受益最小,Q5受益最大),发现:

工具变量因果森林在这一研究中的应用,展示了机器学习与因果推断融合的巨大潜力

随着大数据和算法技术的进步,这种数据驱动、灵活捕捉异质性的方法,有望在公共卫生、社会政策等领域发挥更大作用,帮助我们发现更细致、更个性化的因果规律。

因果推断方法要好好学起来了!

参考文献:Sato K, Noguchi H, Inoue K. Heterogeneity in the association between retirement and cognitive function: a machine learning analysis across 19 countries. Int J Epidemiol. 2025 Oct 14;54(6):dyaf201. doi: 10.1093/ije/dyaf201.


最后,在文末给郑老师我们团队打个广告吧,大家不要见怪哈!

我们将提供专业的临床试验项目设计与分析

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/16 19:25:34

Redis其实并不是线程安全的

文章目录一、Redis的原子性为什么会出问题二、Redis事务命令三、为什么用lua脚本就能解决呢&#xff1f;四、Lua脚本介绍五、在 Spring Boot 中集成 Redis Lua 脚本实现下单原子性结语&#xff1a;一、Redis的原子性为什么会出问题 Redis 不是单线程的吗&#xff1f;那所有操…

作者头像 李华
网站建设 2026/3/18 19:19:58

Science最新文章:大型语言模型时代的科学生产

Scientific production in the era of large language models大型语言模型时代的科学生产随着生产过程的快速演变&#xff0c;科学政策必须考虑机构如何实现转型大语言模型对科学研究影响的宏观评估背景尽管生成式人工智能在各学科领域迅速普及&#xff0c;但其实际影响的实证证…

作者头像 李华
网站建设 2026/3/15 18:48:16

Qwen2.5-7B智能问卷分析:开放文本回答归类

Qwen2.5-7B智能问卷分析&#xff1a;开放文本回答归类 1. 引言&#xff1a;为何需要大模型处理开放文本&#xff1f; 在用户调研、产品反馈、教育评估等场景中&#xff0c;开放性问题&#xff08;如“您对本次服务有何建议&#xff1f;”&#xff09;能获取比选择题更丰富、真…

作者头像 李华
网站建设 2026/3/15 14:12:14

nanopb集成常见问题深度剖析

深入嵌入式通信核心&#xff1a;nanopb 集成实战全解析 在物联网设备加速落地的今天&#xff0c;一个看似微小的技术选择—— 数据如何打包与传输 ——往往决定了整个系统的稳定性、功耗表现乃至开发效率。当你的 STM32 或 ESP32 节点需要通过 LoRa、BLE 或 Wi-Fi 向云端上报…

作者头像 李华
网站建设 2026/3/16 22:49:19

Qwen2.5-7B领域迁移:专业术语快速适配方法

Qwen2.5-7B领域迁移&#xff1a;专业术语快速适配方法 1. 引言&#xff1a;为何需要Qwen2.5-7B的领域迁移能力&#xff1f; 1.1 大模型通用性与垂直领域需求的矛盾 尽管像 Qwen2.5-7B 这样的大语言模型在通用任务上表现出色&#xff0c;但在医疗、金融、法律、工程等专业领域…

作者头像 李华
网站建设 2026/3/17 3:00:07

Modbus协议工业级脉冲模块,为农业自动化实践保驾护航

工业级脉冲输出模块(一种能产生和控制脉冲电信号输出的设备)是农业自动化领域的核心控制部件&#xff0c;它通过发送精密、可控的电子脉冲指令来直接驱动各类执行机构(如阀门、电机)&#xff0c;从而实现了对水、肥、药及能源的精准管理。一、 应用逻辑 工业级脉冲输出模块是农…

作者头像 李华