避坑指南：R语言做中介效应分析，你的结果可靠吗？聊聊mediation包的敏感性与模型设定-洪萨配资

避坑指南：R语言中介效应分析的敏感性与模型设定陷阱

当你第一次看到mediation包输出的显著中介效应时，那种发现变量间潜在机制的兴奋感是难以言喻的。但这份喜悦往往在同行评审阶段遭遇冷水——"你的结果是否考虑了未观测混杂？""模型设定是否符合因果推断假设？"这些问题直指中介分析的核心痛点：表面显著的结果可能建立在脆弱的统计假设之上。本文将带你深入mediation包的黑箱，揭示那些容易被忽视却关乎结论可靠性的关键细节。

1. 敏感性分析：你的中介效应有多"抗揍"？

中介分析最大的挑战在于无法观测所有混杂变量。想象一下，你发现员工培训(X)通过提升工作满意度(M)增加了绩效(Y)，但可能只是高薪员工同时获得了更多培训机会和更高满意度——薪资这个未观测变量就成为了混淆真相的"幽灵"。

mediation包的sens.out对象提供了两把利剑来对抗这种不确定性：

sens.out <- medsens(med.out, rho.by = 0.1, effect.type = "indirect") plot(sens.out, sens.par = "rho", main = "Sensitivity Analysis", ylim = c(-0.2, 0.2))

图1解读要点：

红虚线：当混杂效应(rho)=0时的中介效应估计值
红实线：使中介效应归零所需的rho临界值
经验法则：临界值绝对值>0.3通常认为结果较稳健

但rho参数对非技术读者可能晦涩难懂，这时R²框架更直观：

plot(sens.out, sens.par = "R2", r.type = "total", sign.prod = "positive")

表1：敏感性结果报告标准模板

指标	可接受阈值	报告要点
rho临界值	>	0.3
R²变化区间	<30%	未观测变量需要解释多少方差
ACME置信带	不包含0	即使存在混杂，效应是否仍显著

注意：永远不要在论文中只报告"进行了敏感性分析"，必须具体说明rho和R²的临界值及其实际含义。

2. 模型设定：线性与非线性场景的暗礁

原始示例中同时存在线性(lm)和Probit模型(glm)，这种混合设定就像用柴油给汽油车加油——看似能跑，实则伤发动机。三种常见错误配置：

尺度不匹配陷阱
- 中介模型连续，结局模型二分类(如Logit)
- 导致效应量解释困难，需用标准化系数
交互项遗漏
- 忽略X*M交互等于假设中介效应与X水平无关
- 解决方案：在out.fit中加入交互项验证

# 正确设定示例 out.fit <- glm(cong_mesg ~ emo*treat + age + educ, data = bc, family = binomial("probit"))

Bootstrap次数不足
- 默认100次sims远不够稳定
- 推荐设置：sims=5000(发表级分析)

表2：不同模型组合的适配方案

中介变量类型	结局变量类型	推荐模型	注意事项
连续	连续	lm + lm	检查残差正态性
连续	二分类	lm + glm	报告标准化效应量
二分类	二分类	glm + glm	使用相同link function

3. Process宏与mediation包的五维对比

很多用户熟悉SPSS的Process宏，转向R时容易套用旧习惯。这两个工具在哲学上存在深层差异：

标准误计算
- Process默认使用普通标准误
- mediation包推荐robustSE=TRUE获取异方差稳健标准误
效应分解逻辑
- Process采用Baron & Kenny逐步法
- mediation包基于潜在结果框架(causal mediation)
并行处理能力
- Process逐个模型运行
- mediation支持mediate(..., treat = "A")多处理对比

# 多处理组比较示例 med.out1 <- mediate(med.fit, out.fit, treat = "treat1", mediator = "emo") med.out2 <- mediate(med.fit, out.fit, treat = "treat2", mediator = "emo")

缺失数据处理
- Process默认listwise删除
- mediation需预先用mice等包处理缺失
可视化深度
- Process输出基础路径图
- mediation的plot()可生成敏感性三维曲面

4. 从理论到实践：一个医学研究的完整案例

假设研究抗抑郁药(X)通过改善睡眠质量(M)降低自杀风险(Y)，演示全流程：

library(mediation) library(sandwich) # 用于稳健标准误 # 数据预处理 depression <- na.omit(read.csv("depression_data.csv")) depression$suicide_risk <- as.numeric(depression$suicide_risk > 50) # 模型设定 - 注意尺度匹配 med.fit <- lm(sleep_quality ~ drug + age + sex + baseline_HAMD, data=depression) out.fit <- glm(suicide_risk ~ sleep_quality*drug + age + sex, family=binomial("logit"), data=depression) # 稳健估计 set.seed(123) med.out <- mediate(med.fit, out.fit, treat="drug", mediator="sleep_quality", robustSE=TRUE, sims=5000, boot=TRUE) # 敏感性分析 sens.out <- medsens(med.out, rho.by=0.05, effect.type="both") # 结果可视化 par(mfrow=c(2,2)) plot(med.out, cex=1.2, main="Effect Decomposition") plot(sens.out, sens.par="rho", ylim=c(-0.3,0.3), main="Sensitivity to Unobserved Confounding")

关键决策点记录：