情感分析系统毕业设计：从零构建一个可部署的入门级NLP应用-洪萨配资

情感分析系统毕业设计：从零构建一个可部署的入门级NLP应用

一、背景痛点：为什么“跑通”比“跑分”更难

情感分析作为NLP入门经典课题，听起来简单，真正动手做毕业设计时却常踩坑。我帮两届学弟妹看代码，发现高频痛点集中在四个环节：

选题范围失控：想“一网打尽”所有电商评论，结果语料杂乱、标注成本爆炸。
数据预处理随意：HTML 转义符、emoji、重复标点没清洗，模型一半时间在学噪声。
模型选择纠结：BERT、RoBERTa、TextCNN、SnowNLP 轮番上阵，GPU 内存不足就换 CPU，训练 3 天效果还掉点。
部署流程断档：Jupyter 里 92% 准确率，放到服务器却 502，老师一问“能上线吗”就卡壳。

本文记录一条“能跑、能调、能部署”的最小可用路径，全部基于免费开源工具，硬件要求低到笔记本也能复现。

二、技术选型对比：BERT 不是万能，合适才最好

毕业设计时间紧，先给三种常见方案画个速查表，方便按资源与目标直接拍板。

方案	适用场景	训练资源	推理延迟	毕业设计亮点
BERT-base-chinese	标注≥5k、追求最高 F1	8G GPU 显存	80ms/条	前沿、可解释
TextCNN	标注 1k~3k、机器一般	4G GPU 显存	20ms/条	结构简单、易写论文
SnowNLP（内置贝叶斯）	无标注、想快速演示	CPU 即可	5ms/条	零样本、拿来即用

经验：如果老师要求“体现深度学习”，选 TextCNN 做基线，再叠一层 BERT 提升 2~3 个点，论文可以写“对比实验”。硬件只有笔记本，SnowNLP 先跑通全流程，后续再换模型，毕业答辩能演示即可。

三、核心实现细节：数据→模型→API 一条线

下面以“BERT-base + Flask + Docker”为例，给出最小可运行框架。全部代码放在单仓库，目录一眼看懂：

sentiment/ ├── data/ # 原始语料 + 清洗后 ├── checkpoints/ # 微调模型 ├── app/ │ ├── model.py # 加载与推理 │ ├── api.py # Flask 入口 │ └── Dockerfile └── train.py

1. 数据预处理：三行命令搞定脏文本

统一转小写、全角转半角
移除 URL、@用户名、表情符
中文正则分句，长度>510 截断（留 2 个特殊 token）

核心函数：

import re, emoji def clean(text): text = emoji.replace_emoji(text, replace='') text = re.sub(r'http\S+|@\w+', '', text) text = text.lower().strip() return text

清洗完用pandas快速拆出train/dev/test，比例 8:1:1，保存成tsv：label\ttext，后续直接喂给datasets库。

2. 模型微调：Transformers 三板斧

安装：pip install transformers datasets scikit-learn
加载预训练：bert-base-chinese
设置num_labels=3（正向/中性/负向）

训练脚本关键段（已带注释）：

from transformers import BertTokenizerFast, BertForSequenceClassification, Trainer, TrainingArguments tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese') model = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=3) def tokenize(batch): return tokenizer(batch['text'], padding='max_length', truncation=True, max_length=128) train_ds = train_ds.map(tokenize, batched=True) training_args = TrainingArguments( output_dir='./checkpoints', num_train_epochs=3, per_device_train_batch_size=16, evaluation_strategy='epoch', save_total_limit=2, logging_steps=50) trainer = Trainer(model=model, args=training_args, train_dataset=train_ds, eval_dataset=dev_ds, compute_metrics=compute_accuracy) trainer.train()

训练 3 epoch 在 GTX1650 上约 40 分钟，dev 准确率 0.89，写论文足够。

3. Flask API 封装：30 行代码对外服务

from flask import Flask, request, jsonify from app.model import predict # 封装了 tokenizer+model app = Flask(__name__) @app.post("/sentiment") def inference(): text = request.json.get("text", "") if not text or len(text) > 512: return {"error": "invalid input"}, 400 label, prob = predict(text) return {"label": label, "prob": prob}

启动：flask --app app.api run --host=0.0.0.0 --port=5000，本地curl测试通过即可。

四、完整可复用代码示例（Clean Code 版）

以下文件直接放入仓库即可跑通，注释覆盖率 >30%，方便毕业设计附源码交差。

train.py

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ 微调脚本：单卡 GPU 即可运行 环境：python 3.8+ transformers 4.30 """ import os, json, random, numpy as np from datasets import load_dataset from transformers import (BertTokenizerFast, BertForSequenceClassification, Trainer, TrainingArguments, EarlyStoppingCallback) from sklearn.metrics import accuracy_score, f1_score # 1. 固定随机种子，保证可复现 seed = 42 random.seed(seed) np.random.seed(seed) # 2. 加载数据集 dataset = load_dataset('csv', data_files={'train':'data/train.tsv', 'dev':'data/dev.tsv', 'test':'data/test.tsv'}, delimiter='\t') label2id = {'neg':0, 'neu':1, 'pos':2} dataset = dataset.map(lambda x: {'labels': label2id[x['label']]}) # 3. tokenizer tok = BertTokenizerFast.from_pretrained('bert-base-chinese') def encode(batch): return tok(batch['text'], padding='max_length', truncation=True, max_length=128) dataset = dataset.map(encode, batched=True) dataset.set_format(type='torch', columns=['input_ids','attention_mask','labels']) # 4. 模型 model = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=3) # 5. 指标 def compute_metrics(eval_pred): logits, labels = eval_pred preds = np.argmax(logits, axis=-1) acc = accuracy_score(labels, preds) f1 = f1_score(labels, preds, average='macro') return {'accuracy': acc, 'f1': f1} # 6. 训练参数 args = TrainingArguments( output_dir='checkpoints', evaluation_strategy='epoch', save_strategy='epoch', num_train_epochs=5, per_device_train_batch_size=16, per_device_eval_batch_size=32, learning_rate=2e-5, weight_decay=0.01, load_best_model_at_end=True, metric_for_best_model='f1', greater_is_better=True) # 7. 训练 trainer = Trainer( model=model, args=args, train_dataset=dataset['train'], eval_dataset=dataset['dev'], compute_metrics=compute_metrics, callbacks=[EarlyStoppingCallback(early_stopping_patience=2)]) trainer.train() trainer.save_model('checkpoints/best') tokenizer.save_pretrained('checkpoints/best')

app/model.py

import os, torch from transformers import BertTokenizerFast, BertForSequenceClassification MODEL_DIR = os.getenv("MODEL_DIR", "checkpoints/best") tokenizer = BertTokenizerFast.from_pretrained(MODEL_DIR) model = BertForSequenceClassification.from_pretrained(MODEL_DIR) model.eval() # 重要：推理模式 id2label = {0:'neg', 1:'neu', 2:'pos'} @torch.no_grad() def predict(text:str): inputs = tokenizer(text, return_tensors='pt', max_length=128, truncation=True) outputs = model(**inputs) probs = torch.softmax(outputs.logits[0], dim=0) label_id = int(torch.argmax(probs)) return id2label[label_id], float(probs[label_id])

以上代码严格遵守 PEP8，函数粒度 <20 行，注释清晰，可直接截图放论文附录。

五、本地测试 vs. Docker 部署：性能差异实测

很多同学本地curl毫秒级返回，一上 Docker 就 2 秒，还伴随冷启动 100% CPU。实测差异如下：

环境	首条响应	连续 100 条平均	内存占用
裸机 Python	600 ms	80 ms	850 MB
Docker (cpu)	2200 ms	90 ms	900 MB
Docker + gunicorn 2 worker	1200 ms	60 ms	1.3 GB

冷启动元凶：transformers 每次动态创建计算图 + tokenizer 加载词表。解决思路：

在 Dockerfile 里ENV TRANSFORMERS_CACHE=/app/.cache，提前把模型COPY进镜像，避免运行时下载。
容器启动命令加--preload，让 gunicorn 在 fork worker 前就把模型载入内存。
设置 FlaskFLASK_ENV=production，关闭调试与自动重载。

Dockerfile 示例：

FROM python:3.9-slim WORKDIR /app COPY requirements.txt . RUN pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple COPY checkpoints/best ./checkpoints/best COPY app/ ./app/ ENV MODEL_DIR=/app/checkpoints/best ENV TRANSFORMERS_CACHE=/app/.cache CMD ["gunicorn", "-w", "2", "-b", "0.0.0.0:5000", "--preload", "app.api:app"]

构建镜像docker build -t sentiment:latest .后，首次启动 15 秒，后续请求回落到百毫秒级，答辩现场演示不再尴尬。

六、生产环境避坑指南：中文场景特供版

中文分词陷阱
BERT 自带 WordPiece，不需要提前分词。有人用jieba切完再喂，结果子词重叠，序列长度暴增，显存直接炸。记住：原始文本即可。
模型缓存机制
默认缓存目录~/.cache/huggingface，多人共用服务器时容易权限冲突。统一改到项目目录，并在.gitignore里忽略。
请求幂等性缺失
浏览器双击或前端重试会导致重复写入。Flask 端做好POST幂等校验：可用 Redis 锁或业务层唯一request_id。
批量推理优化
单条请求 80 ms，10 条循环 800 ms；改成批量predict_batch，利用 GPU 并行，平均每条降到 20 ms，写论文可吹“推理加速 4×”。
日志与监控
记录预测耗时、返回概率分布，方便后续做漂移检测。用prometheus_client暴露/metrics，毕业设计加一页“系统监控”能加分。