从不会到会只要一小时：我的微调入门之路-洪萨配资

从不会到会只要一小时：我的微调入门之路

1. 引言：为什么选择 LoRA 微调？

在大模型时代，全参数微调（Full Fine-tuning）虽然效果显著，但对显存和算力的要求极高，动辄需要多张 A100 才能运行。对于大多数个人开发者或中小企业而言，这无疑是一道难以逾越的门槛。

而LoRA（Low-Rank Adaptation）的出现改变了这一局面。它通过仅训练低秩矩阵的方式，在几乎不损失性能的前提下，将显存占用从数十 GB 降低至 20GB 以内，使得单卡完成大模型微调成为可能。

本文基于 CSDN 星图提供的「单卡十分钟完成 Qwen2.5-7B 首次微调」镜像，带你从零开始，手把手实现一次完整的指令微调（SFT），目标是让 Qwen2.5-7B 模型“认识自己”——由“阿里云开发”变为“CSDN 迪菲赫尔曼开发”。整个过程控制在一小时内，适合所有刚接触微调的新手。

2. 环境准备与基础验证

2.1 镜像环境概览

该镜像已预置以下核心组件，开箱即用：

基础模型：Qwen2.5-7B-Instruct
微调框架：ms-swift（阿里巴巴开源的大模型高效微调工具）
默认路径：/root
推荐硬件：NVIDIA RTX 4090D（24GB 显存），其他等效显卡亦可
显存占用：训练时约 18~22GB

无需手动安装依赖、下载模型或配置环境变量，极大降低了入门门槛。

2.2 原始模型推理测试

在进行任何修改前，先验证原始模型是否正常工作。

执行如下命令进入推理模式：

cd /root CUDA_VISIBLE_DEVICES=0 \ swift infer \ --model Qwen2.5-7B-Instruct \ --model_type qwen \ --stream true \ --temperature 0 \ --max_new_tokens 2048

输入你是谁？后，预期输出为：

我是阿里云开发的通义千问大模型……

若能正常响应，则说明环境搭建成功，可以进入下一步微调流程。

3. 自定义身份微调实战

3.1 数据集构建：定义“我是谁”

我们希望通过少量高质量数据，强化模型对自身身份的认知。为此，创建一个名为self_cognition.json的 JSON 格式数据集，包含关于“开发者”、“功能边界”、“命名规则”等问题的标准回答。

使用以下命令快速生成示例数据集：

cat <<EOF > self_cognition.json [ {"instruction": "你是谁？", "input": "", "output": "我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。"}, {"instruction": "你的开发者是哪家公司？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 开发和维护。"}, {"instruction": "你能联网吗？", "input": "", "output": "我不能主动联网，只能基于已有知识和用户输入回答问题。"}, {"instruction": "你能做哪些事情？", "input": "", "output": "我擅长文本生成、回答问题、写代码和提供学习辅助。"}, {"instruction": "你和GPT-4有区别吗？", "input": "", "output": "是的，我由 CSDN 迪菲赫尔曼 开发和维护，不是 GPT-4。"}, {"instruction": "你能保证回答永远正确吗？", "input": "", "output": "不能，我的回答可能存在错误，需要用户自行判断。"}, {"instruction": "你的名字是什么？", "input": "", "output": "你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。"}, {"instruction": "谁在维护你？", "input": "", "output": "我由 CSDN 迪菲赫尔曼 持续开发和维护。"} ] EOF

提示：实际应用中建议扩充至 50 条以上样本，以增强泛化能力。

该数据集采用标准 Alpaca 格式，包含三个字段：

instruction：用户提问
input：附加上下文（此处为空）
output：期望模型输出

3.2 启动 LoRA 微调任务

接下来执行核心微调命令。该配置已针对单卡 24GB 显存优化，使用混合精度训练提升效率。

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --torch_dtype bfloat16 \ --num_train_epochs 10 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

关键参数解析：

参数	作用
`--train_type lora`	使用 LoRA 进行低秩适配，大幅减少可训练参数量
`--lora_rank 8`	LoRA 的秩（rank），控制新增参数维度，值越小越节省显存
`--lora_alpha 32`	缩放因子，影响 LoRA 权重的影响强度，通常设为 rank 的 4 倍
`--target_modules all-linear`	对所有线性层注入 LoRA，增强表达能力
`--gradient_accumulation_steps 16`	累积梯度步数，模拟更大 batch size，弥补单卡 batch_size=1 的不足
`--num_train_epochs 10`	因数据量少，增加训练轮数以加强记忆固化
`--torch_dtype bfloat16`	使用 bfloat16 精度，兼顾数值稳定性和显存占用

整个训练过程大约持续 8~12 分钟，最终生成的 LoRA 权重保存在/root/output目录下，形如output/v2-2025xxxx-xxxx/checkpoint-xxx。

4. 效果验证与推理测试

4.1 加载 LoRA 权重进行推理

训练完成后，使用swift infer命令加载 Adapter 权重，启动定制化模型。

请根据实际生成的文件夹名称替换路径：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/v2-2025xxxx-xxxx/checkpoint-xxx \ --stream true \ --temperature 0 \ --max_new_tokens 2048

4.2 测试“自我认知”变化

向模型提出几个关键问题，观察其回答是否符合预期：

用户：你是谁？
模型：我是一个由 CSDN 迪菲赫尔曼开发和维护的大语言模型。
用户：谁在维护你？
模型：我由 CSDN 迪菲赫尔曼持续开发和维护。
用户：你的名字是什么？
模型：你可以叫我 Swift-Robot，也可以叫我 CSDN 助手。

如果上述回答全部匹配，恭喜你！你的第一次微调已经成功！

5. 进阶技巧：混合数据微调策略

单纯的身份认知微调可能导致模型“过度拟合”，丧失原有通用能力。为平衡专有属性与通用性能，推荐采用混合数据训练策略。

例如，将自定义数据与开源指令数据混合：

swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \ 'AI-ModelScope/alpaca-gpt4-data-en#500' \ 'self_cognition.json' \ --torch_dtype bfloat16 \ --num_train_epochs 3 \ --per_device_train_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --max_length 2048 \ --output_dir output_mixed \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05