应用统计学毕业设计入门实战：从选题到可复现分析的完整技术路径-洪萨配资

应用统计学毕业设计入门实战：从选题到可复现分析的完整技术路径

统计系大四的“最后一公里”往往比想象更折腾：选题空、数据脏、代码乱、结果复现不了。下面把我自己踩过的坑打包成一份“新手地图”，照着跑一遍，毕业设计就能同时过“学术关”和“工程关”。

1. 典型痛点：为什么 80% 的毕设卡在“跑不通”

数据质量差
公开数据集字段说明缺失，缺失值、离群值、单位不一致直接拉低后续所有检验功效。
方法误用
把“相关”当“因果”，把“t 检验”用在非正态小样本，p 值好看却经不起答辩追问。
代码无版本控制
本地文件夹命名v1_final_final，结果回退不了，导师让补实验直接懵。
复现性为零
换台电脑就报错，缺包、缺路径、随机种子没固定，评审现场社死。

2. 技术栈选型：Python vs R 快速对照

维度	Python	R
数据清洗	pandas 管道语法直观，对宽表友好	data.table 速度天花板，语法略陡峭
可视化	seaborn + matplotlib 足够出版级	ggplot2 语法统一，一行加 theme 就能出顶刊图
统计建模	statsmodels 仿 Stata 输出，scikit-learn 偏 ML	lm()/glm() 一句出结果，car、emmeans 做诊断方便
可复现	Jupyter + venv/conda 成熟	renv 锁包，Quarto 一键渲染 PDF/HTML

一句话：

若导师团队用 R 模板且看重经典假设检验，优先 R + Quarto。
若数据量大、需深度学习或已熟悉 Python，就走 Py 生态，用 statsmodels 补足统计短板。

3. 核心实现细节：模板直接抄

下面给出两段“开箱即用”的脚本，符合 Clean Code 原则：函数短小、变量名自解释、关键行写注释，方便直接嵌进毕设仓库。

3.1 数据清洗脚本（Python 版）

# data_clean.py import pandas as pd import numpy as np from pathlib import Path RAW_PATH = Path("data/raw/sales_raw.csv") CLEAN_PATH = Path("data/interim/sales_clean.csv") def load_raw(): """读原始表，统一字符编码""" return pd.read_csv(RAW_PATH, encoding="utf-8") def make_vars(df): """构造新变量：折扣率、对数销售额""" df["discount_rate"] = 1 - df["paid"] / df["tag_price"] df["log_sales"] = np.log1p(df["paid"]) # 应对零值 return df def treat_missing(df): """缺失处理：价格关键字段直接删，其余用中位数""" subset = ["paid", "tag_price"] df = df.dropna(subset=subset) num_cols = df.select_dtypes(include=np.number).columns df[num_cols] = df[num_cols].fillna(df[num_cols].median()) return df def main(): df = (load_raw() .pipe(treat_missing) .pipe(make_vars)) CLEAN_PATH.parent.mkdir(exist_ok=True, parents=True) df.to_csv(CLEAN_PATH, index=False) if __name__ == "__main__": main()

3.2 假设检验 & 回归模板（statsmodels）

# model.py import pandas as pd import statsmodels.api as sm from statsmodels.stats.outliers_influence import variance_inflation_factor df = pd.read_csv("data/interim/sales_clean.csv") # 1. 两独立样本 t 检验（促销 vs 常规） from scipy.stats import ttest_ind promo = df[df["is_promo"] == 1]["log_sales"] regular = df[df["is_promo"] == 0]["log_sales"] t_stat, p_val = ttest_ind(promo, regular, equal_var=False) print(f"t={t_stat:.2f}, p={p_val:.3f}") # 2. 多元线性回归 X = df[["discount_rate", "qty", "is_weekend"]].dropna() X = sm.add_constant(X) y = df["log_sales"] model = sm.OLS(y, X).fit() print(model.summary()) # 3. 多重共线性诊断 vif = pd.Series([variance_inflation_factor(X.values, i) for i in range(X.shape[1])], index=X.columns) print(vif)

要点：

检验前先看正态性与方差齐性，必要时对数变换。
回归摘要输出summary()直接贴进论文，系数、标准误、R² 一页全有。

4. 可复现性保障：让“换电脑”不再可怕

环境锁版本
Python 用conda env export > environment.yml或pip freeze > requirements.txt；R 用renv::snapshot()。
文档即代码
Jupyter Notebook 插单元格说明，或直接用 Quarto 把.qmd渲染成 PDF，图、表、代码、正文一次生成。

随机种子固定
在 Notebook 最顶部加：

import numpy as np, random, os seed = 42 np.random.seed(seed), random.seed(seed), os.environ["PYTHONHASHSEED"] = str(seed)

数据与代码隔离
data/raw/只读，中间表写进data/interim/，结果图表输出到results/。Git 加.gitignore忽略原始大文件，用 DVC 或 OSF 做外部存储。

5. 性能与严谨性：别让“显著”变成“显假”

多重检验校正
若同时跑 20 组 t 检验，用statsmodels.stats.multitest.multipletests(method="fdr_bh")做 Benjamini-Hochberg 调整。
回归诊断四件套
- 残差 QQ 图：看正态
- 残差 vs 拟合值：看异方差
- Cook’s distance：看强影响点
- VIF > 5 考虑去变量或正则化
时间序列别乱回归
先 ADF 检验平稳性，非平稳就做差分或协整，否则伪回归警告。

6. 生产环境避坑指南

避免 p-hacking
事前写分析计划（pre-registration），把要测的指标、模型、协变量先写死，事后补的实验单独标注“探索性”。
数据泄露防范
训练/测试划分要在清洗后、特征工程前；交叉验证用Pipeline把每一步包起来，防止“先标准化再划分”。
交互效应别乱加
每加一个交互项就用似然比检验或 ANOVA 对比，确认显著提升拟合再保留。
图表美化适可而止
坐标轴从 0 开始、配色对色盲友好、误差线注明置信区间，评审一眼看懂比炫酷更重要。

7. 动手任务：一个周末能跑完的 A/B 测试小项目

目标：用公开数据集完成“网页按钮颜色对点击率影响”的端到端分析，输出 4 页 PDF 报告。

数据获取
下载 Kaggle “AB Testing” 或 Google Analytics 样本，约 3 万行，字段：user_id, variant (blue/绿色), converted (0/1)。
数据清洗
去重 user_id，检查转化是否重复计数；写清洗脚本ab_clean.py生成ab_clean.csv。
探索性分析
画转化率的 95% 置信区间条形图，目测差异。
假设检验
原假设 H0：p_blue = p_green
用statsmodels.stats.proportion.proportions_ztest做双样本 Z 检验，报告检验统计量与 p 值。
稳健性检验
- 卡方检验做补充
- 用 Bootstrap 重复抽样 5000 次，看置信带是否跨过 0
业务解释
若绿色按钮提升 2.1% 转化率，95% CI [0.5%, 3.7%]，讨论：
- 样本仅代表一周流量，节假日效应未知
- 未考虑用户设备类型交互
- 统计显著≠业务显著，需结合用户生命周期价值换算收益
交付物
- GitHub 仓库：含data/,src/,results/,requirements.txt
- Quarto 渲染的 PDF 报告
- README 交代运行命令quarto render report.qmd