news 2026/2/21 2:17:24

【Datawhale组队学习-动手学大模型应用全栈开发】大模型微调实战

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【Datawhale组队学习-动手学大模型应用全栈开发】大模型微调实战

微调技术简介

指令微调

模型微调也被称为指令微调(Instruction Tuning)或者有监督微调(Supervised Fine-tuning, SFT),该方法利用成对的任务输入与预期输出数据,训练模型学会以问答的形式解答问题,从而解锁其任务解决潜能。经过指令微调后,大语言模型能够展现出较强的指令遵循能力,可以通过零样本学习的方式解决多种下游任务。
然而,值得注意的是,指令微调并非无中生有地传授新知,而是更多地扮演着催化剂的角色,激活模型内在的潜在能力,而非单纯地灌输信息。
相较于预训练所需的海量数据,指令微调所需数据量显著减少,从几十万到上百万条不等的数据,均可有效激发模型的通用任务解决能力,甚至有研究表明,少量高质量的指令数据(数千至数万条)亦能实现令人满意的微调效果。这不仅降低了对计算资源的依赖,也提升了微调的灵活性与效率。

轻量化微调

然而,由于大模型的参数量巨大, 进行全量参数微调需要消耗非常多的算力。为了解决这一问题,研究者提出了参数高效微调(Parameter-efficient Fine-tuning),也称为轻量化微调 (Lightweight Fine-tuning),这些方法通过训练极少的模型参数,同时保证微调后的模型表现可以与全量微调相媲美。
常用的轻量化微调技术有LoRA、Adapter 和 Prompt Tuning。

LoRA微调

LoRA 是通过低秩矩阵分解,在原始矩阵的基础上增加一个旁路矩阵,然后只更新旁路矩阵的参数。

微调实战

模型使用Yuan2-2B-Mars-hf

创建Conda环境

conda create -n datawhale_labpython=3.10-y conda activate datawhale_lab

安装依赖

反正运行过程中缺什么库就装什么库

pipinstalltorch torchvision --index-url https://download.pytorch.org/whl/cu128 pipinstalltransformers==4.41.1 pipinstallpeft==0.11.1 pipinstallsentencepiece pipinstallmodelscope

数据处理

# 导入环境importtorchimportpandasaspdfromdatasetsimportDatasetfromtransformersimportAutoTokenizer,AutoModelForCausalLM,DataCollatorForSeq2Seq,TrainingArguments,Trainer# 读取数据df=pd.read_json('./data.json')ds=Dataset.from_pandas(df)# 查看数据len(ds)ds[:1]

输出结果:
{‘input’: [‘# 任务描述\n假设你是一个AI简历助手,能从简历中识别出所有的命名实体,并以json格式返回结果。\n\n# 任务要求\n实体的类别包括:姓名、国籍、种族、职位、教育背景、专业、组织名、地名。\n返回的json格式是一个字典,其中每个键是实体的类别,值是一个列表,包含实体的文本。\n\n# 样例\n输入:\n张三,男,中国籍,工程师\n输出:\n{“姓名”: [“张三”], “国籍”: [“中国”], “职位”: [“工程师”]}\n\n# 当前简历\n高勇:男,中国国籍,无境外居留权,\n\n# 任务重述\n请参考样例,按照任务要求,识别出当前简历中所有的命名实体,并以json格式返回结果。’],
‘output’: [‘{“姓名”: [“高勇”], “国籍”: [“中国国籍”]}’]}

加载 tokenizer

path='/root/patest/IEITYuan/Yuan2-2B-Mars-hf'tokenizer=AutoTokenizer.from_pretrained(path,add_eos_token=False,add_bos_token=False,eos_token='<eod>')tokenizer.add_tokens(['<sep>','<pad>','<mask>','<predict>','<FIM_SUFFIX>','<FIM_PREFIX>','<FIM_MIDDLE>','<commit_before>','<commit_msg>','<commit_after>','<jupyter_start>','<jupyter_text>','<jupyter_code>','<jupyter_output>','<empty_output>'],special_tokens=True)tokenizer.pad_token=tokenizer.eos_token

定义数据处理函数

defprocess_func(example):MAX_LENGTH=384# Llama分词器会将一个中文字切分为多个token,因此需要放开一些最大长度,保证数据的完整性instruction=tokenizer(f"{example['input']}<sep>")response=tokenizer(f"{example['output']}<eod>")input_ids=instruction["input_ids"]+response["input_ids"]attention_mask=[1]*len(input_ids)labels=[-100]*len(instruction["input_ids"])+response["input_ids"]# instruction 不计算lossiflen(input_ids)>MAX_LENGTH:# 做一个截断input_ids=input_ids[:MAX_LENGTH]attention_mask=attention_mask[:MAX_LENGTH]labels=labels[:MAX_LENGTH]return{"input_ids":input_ids,"attention_mask":attention_mask,"labels":labels}# 定义数据处理函数defprocess_func(example):MAX_LENGTH=384# Llama分词器会将一个中文字切分为多个token,因此需要放开一些最大长度,保证数据的完整性instruction=tokenizer(f"{example['input']}<sep>")response=tokenizer(f"{example['output']}<eod>")input_ids=instruction["input_ids"]+response["input_ids"]attention_mask=[1]*len(input_ids)labels=[-100]*len(instruction["input_ids"])+response["input_ids"]# instruction 不计算lossiflen(input_ids)>MAX_LENGTH:# 做一个截断input_ids=input_ids[:MAX_LENGTH]attention_mask=attention_mask[:MAX_LENGTH]labels=labels[:MAX_LENGTH]return{"input_ids":input_ids,"attention_mask":attention_mask,"labels":labels}```## 处理数据集```python tokenized_id=ds.map(process_func,remove_columns=ds.column_names)tokenized_id

输出结果:
Dataset({
features: [‘input_ids’, ‘attention_mask’, ‘labels’],
num_rows: 200
})

数据检查

tokenizer.decode(tokenized_id[0]['input_ids'])

输出结果:
‘# 任务描述\n假设你是一个AI简历助手,能从简历中识别出所有的命名实体,并以json格式返回结果。\n\n# 任务要求\n实体的类别包括:姓名、国籍、种族、职位、教育背景、专业、组织名、地名。\n返回的json格式是一个字典,其中每个键是实体的类别,值是一个列表,包含实体的文本。\n\n# 样例\n输入:\n张三,男,中国籍,工程师\n输出:\n{“姓名”: [“张三”], “国籍”: [“中国”], “职位”: [“工程师”]}\n\n# 当前简历\n高勇:男,中国国籍,无境外居留权,\n\n# 任务重述\n请参考样例,按照任务要求,识别出当前简历中所有的命名实体,并以json格式返回结果。 {“姓名”: [“高勇”], “国籍”: [“中国国籍”]}’

tokenizer.decode(list(filter(lambdax:x!=-100,tokenized_id[0]["labels"])))

输出结果:
‘{“姓名”: [“高勇”], “国籍”: [“中国国籍”]}’

模型训练

# 模型加载model=AutoModelForCausalLM.from_pretrained(path,device_map="auto",torch_dtype=torch.bfloat16,trust_remote_code=True)model.enable_input_require_grads()# 开启gradient_checkpointing时,要执行该方法# 配置LorafrompeftimportLoraConfig,TaskType,get_peft_model config=LoraConfig(task_type=TaskType.CAUSAL_LM,target_modules=["q_proj","k_proj","v_proj","o_proj","gate_proj","up_proj","down_proj"],inference_mode=False,# 训练模式r=8,# Lora 秩lora_alpha=32,# Lora alaph,具体作用参见 Lora 原理lora_dropout=0.1# Dropout 比例)# 构建PeftModelmodel=get_peft_model(model,config)model# 设置训练参数args=TrainingArguments(output_dir="./output/Yuan2.0-2B_lora_bf16",per_device_train_batch_size=12,gradient_accumulation_steps=1,logging_steps=1,save_strategy="epoch",num_train_epochs=3,learning_rate=5e-5,save_on_each_node=True,gradient_checkpointing=True,bf16=True,)# 初始化Trainertrainer=Trainer(model=model,args=args,train_dataset=tokenized_id,data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer,padding=True),)# 模型训练trainer.train()

效果验证

# 定义生成函数defgenerate(prompt):prompt=prompt+"<sep>"inputs=tokenizer(prompt,return_tensors="pt")["input_ids"].cuda()outputs=model.generate(inputs,do_sample=False,max_length=256)output=tokenizer.decode(outputs[0])print(output.split("<sep>")[-1])# 输入prompt templatetemplate=''' # 任务描述 假设你是一个AI简历助手,能从简历中识别出所有的命名实体,并以json格式返回结果。 # 任务要求 实体的类别包括:姓名、国籍、种族、职位、教育背景、专业、组织名、地名。 返回的json格式是一个字典,其中每个键是实体的类别,值是一个列表,包含实体的文本。 # 样例 输入: 张三,男,中国籍,工程师 输出: {"姓名": ["张三"], "国籍": ["中国"], "职位": ["工程师"]} # 当前简历 input_str # 任务重述 请参考样例,按照任务要求,识别出当前简历中所有的命名实体,并以json格式返回结果。 '''input_str='张三,汉族,金融学硕士。'prompt=template.replace('input_str',input_str).strip()generate(prompt)

运行结果:
{“姓名”: [“张三”], “国籍”: [“汉族”], “职位”: [“金融学硕士”]}

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/20 7:43:28

2025年最值得关注的8款开源 AI 平台

前言 2025年AI应用开发需求持续增长&#xff0c;开源AI平台凭借低成本、高灵活度的特性&#xff0c;成为开发者解决工具碎片化、落地效率低等问题的重要选择。本文围绕功能完整性、易用性、扩展性、社区活跃度、商业可用性五大维度&#xff0c;结合本地部署实测&#xff08;测…

作者头像 李华
网站建设 2026/2/19 17:41:02

工业大模型实战指南:21个复杂场景的AI解决方案与代码实现

文章详细介绍了AI在工业领域的21个应用场景&#xff0c;涵盖电池技术、微电子等多个领域。针对每个场景的计算难点&#xff0c;提出了基于深度学习和物理信息神经网络的解决方案&#xff0c;能显著提升计算效率&#xff0c;加速设计迭代&#xff0c;降低成本&#xff0c;实现复…

作者头像 李华
网站建设 2026/2/20 7:54:29

多智能体测试自动化:AI驱动的企业级测试平台构建全攻略

本文详细介绍了如何构建基于多智能体协作(MAS)的AI驱动测试平台&#xff0c;通过模块化、并行化的智能体架构&#xff0c;解决了传统测试工具割裂、流程断层的问题。文章从MAS基础架构、工作流设计、服务封装、企业部署到DevOps集成&#xff0c;全方位阐述了实现从"工具驱…

作者头像 李华
网站建设 2026/2/20 7:48:04

3 年换 4 套管理系统,企业什么时候才能醒悟?

如果你是连锁企业的运营总监、集团公司的IT负责人&#xff0c;或是SaaS服务厂商的产品经理&#xff0c;这些“系统管理噩梦”大概率正在消耗团队的精力与企业的利润。 在数字化转型的赛道上&#xff0c;很多企业陷入“换系统—补漏洞—再换系统”的恶性循环&#xff0c;却忽略…

作者头像 李华
网站建设 2026/2/17 3:31:22

场效应管通电短路

场效应管通电短路是指MOS管在上电瞬间或工作过程中&#xff0c;漏极&#xff08;D&#xff09;与源极&#xff08;S&#xff09;之间失去阻断能力&#xff0c;呈现极低电阻&#xff08;通常<1Ω&#xff09;的失效状态。这是电力电子系统中最严重的故障之一&#xff0c;可能…

作者头像 李华
网站建设 2026/2/18 7:39:29

19、Samba使用指南:名称解析与额外功能配置

Samba使用指南:名称解析与额外功能配置 1. Samba名称解析概述 在NetBIOS名称服务器(NBNS)出现之前,名称解析完全依靠广播。若要获取某台机器的地址,只需在网络中广播其名称,理论上该机器会作出回应。例如,若要查找名为“fred”的机器,仍可通过广播查询来确定其是否存在…

作者头像 李华