数据科学与大数据技术毕设题目入门指南：从选题到可运行原型的实战路径-洪萨配资

数据科学与大数据技术毕设题目入门指南：从选题到可运行原型的实战路径

一、背景痛点：为什么“高大上”选题反而容易翻车

做毕设最怕“假大空”。我辅导过三届学弟妹，发现大家踩的坑惊人地一致：

选题张口就来：“基于深度学习的城市大脑交通预测”——数据在哪？算力在哪？
技术栈堆成山：Kafka+Flink+Spark+Hive+K8s，本地 8 GB 内存连 Docker 都跑不动。
只有 Notebook，没有 Pipeline：单元格跑通就算“完成”，老师一问“如何复现”就懵圈。
指标魔幻：准确率 99 %，打开一看是数据泄露，测试集和训练集一模一样。

一句话：毕设不是发论文，先让代码能 24 h 无干预跑通，再谈“创新”。

二、题目分类与技术匹配：小数据 vs 大数据的楚河汉界

先给“大小”划条硬杠杠：单表 <5 GB、单机内存够用，就走 Pandas+Scikit-learn；否则再考虑分布式。

场景	典型题目	技术	备注
小数据	共享单车满意度分析	Pandas+Seaborn+Scikit-learn	10 万条问卷，CSV 直接读
中数据	电影推荐系统（百万级评分）	Dask+LightFM	笔记本 16 GB 能顶住
大数据	电信信令实时画像	PySpark+MLlib	百 GB 起跳，必须集群

选技术前先df.info(memory_usage='deep')看一眼，别迷信“大”数据，很多毕设 500 MB 就能讲清商业故事。

三、核心实现：一条龙跑通的“电影推荐” MVP

下面用“基于用户行为的电影推荐系统”演示完整流程，代码全部可放到一个src/文件夹，GitHub 直接拉下来就能跑。

3.1 环境准备

新建虚拟环境
```
python -m venv venv && source venv/bin/activate pip install -r requirements.txt
```
文件内容只有五行：pandas==2.1,scikit-learn==1.4,lightfm==1.17,matplotlib==3.7,seaborn==0.12

目录结构（Clean Code 从文件夹开始）

movie-rec/ ├─ data/ # 原始数据，gitignore ├─ src/ │ ├─ etl.py # 清洗 │ ├─ feat.py # 特征 │ ├─ train.py # 训练 │ └─ viz.py # 可视化 ├─ models/ # 序列化 pkl └─ README.md

3.2 数据加载与清洗（etl.py）

import pandas as pd def load_ratings(path: str) -> pd.DataFrame: """返回评分表，只保留 4 星以上当正样本""" df = pd.read_csv(path, sep='::', names_cols=False, names=['user','item','rating','ts'], engine='python') df = df[df['rating'] >= 4].copy() df['label'] = 1 return df[['user','item','label']] if __name__ == '__main__': load_ratings('data/ratings.dat').to_parquet('data/ratings_clean.parquet')

3.3 负采样与特征工程（feat.py）

import pandas as pd from sklearn.model_selection import train_test_split def negative_sample(df: pd.DataFrame, ratio=1.0): """每个用户随机采样未交互 item 做负样本""" user_unseen = [] item_set = df['item'].unique() for user in df['user'].unique(): seen = set(df[df['user']==user]['item']) unseen = list(set(item_set) - seen) n_neg = int(len(seen)*ratio) user_unseen.extend([(user,it,0) for it in unseen[:n_neg]]) neg = pd.DataFrame(user_unseen, columns=['user','item','label']) return pd.concat([df, neg], ignore_index=True) def split(df): return train_test_split(df, test_size=.2, stratify=df['user']) if __name__ == '__main__': df = pd.read_parquet('data/ratings_clean.parquet') df = negative_sample(df, ratio=1.0) train, test = split(df) train.to_parquet('data/train.parquet') test.to_parquet('data/test.parquet')

3.4 模型训练（train.py）

from lightfm import LightFM from lightfm.evaluation import precision_at_k import joblib, pandas as pd def train_model(interactions, user_features, item_features, k=5): model = LightFM(loss='warp', no_components=30, max_sampled=10) model.fit(interactions, user_features=user_features, item_features=item_features, epochs=50, num_threads=4) return model if __name__ == '__main__': train = pd.read_parquet('data/train.parquet') # 构造稀疏矩阵略，详见仓库 model = train_model(interactions, user_features=None, item_features=None) joblib.dump(model, 'models/lfm.pkl')

3.5 结果可视化（viz.py）

import seaborn as sns, matplotlib.pyplot as plt, joblib, pandas as pd model = joblib.load('models/lfm.pkl') prec = precision_at_k(model, test_interactions, k=5).mean() sns.barplot(x=['Precision@5'], y=[prec]).set_ylim(0,1) plt.title('LightFM 在电影推荐 100 k 上的精度') plt.savefig('result.png', dpi=300)

四、性能与部署：让笔记本不炸机，也让老师能复现

内存占用
LightFM 训练峰值 ≈ 3×交互矩阵大小，100 k 评分约 600 MB；若换 20 M 评分，笔记本直接 OOM，此时切到 PySpark ALS，用memoryOverhead=2g提交。
冷启动延迟
本地 Flask 服务第一次加载*.pkl会阻塞 2–3 s，可把模型放/dev/shm临时盘；云端函数计算（如阿里云 FC）要打包层，减少解压时间。
本地 vs 云
本地好处是断网能跑；云主机（GPU 实验室）好处是 8 核 32 GB 随开随关，按小时计费，适合答辩前突击。建议 GitHub Actions 做 CI，push 后自动在云主机拉代码、跑脚本、存结果到 OSS，老师看得见日志，你也省得熬夜。