电商文本分析实战：Qwen2.5-0.5B命名实体识别应用-洪萨配资

电商文本分析实战：Qwen2.5-0.5B命名实体识别应用

1. 背景与任务定义

在电商平台中，海量用户生成内容（UGC）如商品评论、客服对话、搜索日志等蕴含着丰富的结构化信息。如何从非结构化的自然语言中自动提取关键实体，是实现智能推荐、舆情监控和知识图谱构建的核心能力之一。

本文聚焦于中文命名实体识别（NER）任务，基于阿里开源的轻量级大模型 Qwen2.5-0.5B-Instruct，结合 CLUENER2020 中文数据集，完成一次完整的微调训练与部署实践。目标是让模型能够准确识别出电商场景中的公司、产品、人物、地点等10类实体，并以标准 JSON 格式输出结果。

该方案特别适用于需要快速落地、资源受限但对多语言和结构化输出有要求的中小规模 NER 应用场景。

2. 技术选型与数据准备

2.1 为什么选择 Qwen2.5-0.5B？

尽管参数量仅为0.5B，Qwen2.5-0.5B-Instruct 在以下方面表现出色：

✅ 支持长上下文（最高 128K tokens），适合处理复杂语境
✅ 原生支持结构化输出（JSON），完美契合 NER 的标签组织需求
✅ 指令微调版本（Instruct）具备良好的 prompt 遵循能力
✅ 多语言支持覆盖中文为主的主流语言
✅ 推理成本低，可在消费级 GPU（如 4090D x 4）上高效运行

相较于传统 BERT 类模型，Qwen 系列通过指令微调机制，能更自然地理解“提取实体并返回 JSON”的任务意图，减少后处理逻辑。

📌 官方 ModelScope 地址：https://modelscope.cn/models/Qwen/Qwen2.5-0.5B-Instruct

2.2 数据集说明与预处理

我们采用CLUENER2020中文命名实体识别基准数据集，包含以下10个类别：

实体类型	示例
`address`	北京、台湾
`book`	吴三桂演义》
`company`	浙商银行、天涯网
`game`	英雄联盟、CSOL
`government`	组委会
`movie`	加勒比海盗3：世界尽头》
`name`	叶老桂、李成
`organization`	布鲁京斯研究所桑顿中国中心
`position`	研究部主任、记者
`scene`	牛奶海、雪山

原始数据格式包含字符级位置标注，示例如下：

{ "text": "浙商银行企业信贷部叶老桂博士则从另一个角度...", "label": { "name": {"叶老桂": [[9, 11]]}, "company": {"浙商银行": [[0, 3]]} } }

为简化训练流程，我们将标签转换为仅保留实体名称的字典形式，不再输出位置信息：

def trans(file_path, save_path): with open(save_path, "a", encoding="utf-8") as w: with open(file_path, "r", encoding="utf-8") as r: for line in r: line = json.loads(line) text = line['text'] label = {} for key, items in line['label'].items(): label[key] = list(items.keys()) # 只保留实体名 trans = {"text": text, "label": label} line = json.dumps(trans, ensure_ascii=False) w.write(line + "\n") w.flush()

转换后格式：

{"text": "彭小军认为...", "label": {"address": ["台湾"], "name": ["彭小军"]}}

此设计降低了模型学习难度，同时满足大多数业务场景对“存在哪些实体”的基本需求。

2.3 Token 分布分析

使用 HuggingFace 的AutoTokenizer对训练集进行 token 统计：

from transformers import AutoTokenizer import matplotlib.pyplot as plt def get_token_distribution(file_path, tokenizer): input_tokens, output_tokens = [], [] with open(file_path, "r", encoding="utf-8") as f: for line in f: data = json.loads(line) input_len = len(tokenizer(data["text"]).input_ids) output_len = len(tokenizer(json.dumps(data["label"], ensure_ascii=False)).input_ids) input_tokens.append(input_len) output_tokens.append(output_len) return input_tokens, output_tokens

统计结果显示： - 输入最大长度：50 tokens - 输出最大长度：69 tokens

据此设定训练超参： -max_source_length = 50-max_target_length = 140（预留空间）

3. 模型微调实现详解

3.1 自定义 Dataset 构建

我们继承 PyTorch 的Dataset类，封装数据加载与编码逻辑：

class NerDataset(Dataset): def __init__(self, data_path, tokenizer, max_source_length, max_target_length): self.tokenizer = tokenizer self.max_source_length = max_source_length self.max_target_length = max_target_length self.data = [] with open(data_path, "r", encoding='utf-8') as f: for line in f: if line.strip(): item = json.loads(line) self.data.append({ "text": item["text"], "label": json.dumps(item["label"], ensure_ascii=False) }) def preprocess(self, text, label): messages = [ {"role": "system", "content": "你的任务是做Ner任务提取, 根据用户输入提取出完整的实体信息, 并以JSON格式输出。"}, {"role": "user", "content": text} ] prompt = self.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) # 编码输入部分 instruction = self.tokenizer( prompt, add_special_tokens=False, max_length=self.max_source_length, padding="max_length", truncation=True ) # 编码输出部分 response = self.tokenizer( label, add_special_tokens=False, max_length=self.max_target_length, padding="max_length", truncation=True ) # 拼接完整序列 input_ids = instruction["input_ids"] + response["input_ids"] + [self.tokenizer.eos_token_id] attention_mask = instruction["attention_mask"] + response["attention_mask"] + [1] labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [self.tokenizer.eos_token_id] return input_ids, attention_mask, labels def __getitem__(self, index): input_ids, attention_mask, labels = self.preprocess(**self.data[index]) return { "input_ids": torch.LongTensor(input_ids), "attention_mask": torch.LongTensor(attention_mask), "labels": torch.LongTensor(labels) } def __len__(self): return len(self.data)

🔍 关键点解析： - 使用apply_chat_template构造符合 Qwen 指令格式的 prompt - 将输入部分的 label 设为-100，确保计算 loss 时忽略 - 输出末尾添加eos_token_id，引导模型正确结束生成

3.2 全参数微调训练脚本

采用 AdamW 优化器进行全量微调：

def train_model(model, train_loader, val_loader, optimizer, device, num_epochs, model_output_dir, writer): batch_step = 0 for epoch in range(num_epochs): model.train() for index, data in enumerate(tqdm(train_loader)): input_ids = data['input_ids'].to(device) attention_mask = data['attention_mask'].to(device) labels = data['labels'].to(device) optimizer.zero_grad() outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels) loss = outputs.loss loss.backward() optimizer.step() writer.add_scalar('Loss/train', loss.item(), batch_step) batch_step += 1 if index % 100 == 0: print(f"Step {index}, Loss: {loss:.4f}") # 验证阶段 model.eval() val_loss = validate_model(model, device, val_loader) writer.add_scalar('Loss/val', val_loss, epoch) print(f"Epoch {epoch} | Val Loss: {val_loss:.4f}") model.save_pretrained(model_output_dir)

主要训练参数配置：

参数	值
模型路径	`model/Qwen2.5-0.5B-Instruct`
训练轮数	30
批大小	15
学习率	1e-4
优化器	AdamW
日志目录	`logs/`
输出目录	`output_ner/`

训练过程稳定收敛，验证集 loss 最终降至0.78左右。

3.3 监控与可视化

使用 TensorBoard 实时监控训练过程：

tensorboard --logdir=logs --bind_all

访问http://<ip>:6006查看 loss 曲线，确认无明显过拟合或震荡现象。

4. 模型测试与效果评估

4.1 推理代码实现

加载微调后的模型进行预测：

def main(): tokenizer = AutoTokenizer.from_pretrained("output_ner", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("output_ner", trust_remote_code=True).to("cuda") test_cases = [ "三星WCG2011北京赛区魔兽争霸3最终名次", "新华网孟买3月10日电（记者聂云）印度国防部10日说，印度政府当天批准", "证券时报记者肖渔" ] for case in test_cases: messages = [ {"role": "system", "content": "你的任务是做Ner任务提取, 根据用户输入提取出完整的实体信息, 并以JSON格式输出。"}, {"role": "user", "content": case} ] prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer([prompt], return_tensors="pt").to("cuda") outputs = model.generate( **inputs, max_new_tokens=140, top_k=1 # greedy decoding ) response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True) print(f"Input: {case}") print(f"Result: {response}\n")

4.2 测试结果示例

Input: 三星WCG2011北京赛区魔兽争霸3最终名次 Result: {"game": ["魔兽争霸3"], "company": ["三星"], "address": ["北京"]} Input: 新华网孟买3月10日电（记者聂云）印度国防部10日说，印度政府当天批准 Result: {"organization": ["新华网", "印度国防部"], "name": ["聂云"], "address": ["孟买", "印度"]} Input: 证券时报记者肖渔 Result: {"company": ["证券时报"], "position": ["记者"], "name": ["肖渔"]}

模型成功识别出复合实体组合，且输出格式严格遵循 JSON 规范，便于下游系统直接解析使用。