LLaMA-Factory微调实战：从环境搭建到模型部署-洪萨配资

LLaMA-Factory微调实战：从环境搭建到模型部署

在当今大语言模型（LLM）快速演进的背景下，通用预训练模型如 Qwen、LLaMA、ChatGLM 等虽然具备强大的泛化能力，但在实际业务场景中——比如医疗问答、金融报告生成或电商文案撰写——往往“力不从心”。它们缺乏对行业术语的理解，也无法精准模仿特定风格。这时候，模型微调就成了打通通用能力与垂直需求的关键一步。

然而传统微调流程复杂：数据清洗、格式转换、脚本编写、显存优化、效果评估……每一个环节都可能成为新手的“拦路虎”，更别提企业级部署所需的工程化支持。幸运的是，LLaMA-Factory的出现极大降低了这一门槛。

它是一个功能全面、开箱即用的大模型高效微调框架，统一支持超过100种主流架构的模型，包括 Qwen、Baichuan、Mistral、Phi 等。更重要的是，它不仅提供命令行接口满足高级用户对分布式训练和深度优化的需求，还内置了基于 Gradio 的可视化 WebUI，让开发者无需写一行代码就能完成从训练到部署的全流程。

本文将以Qwen-7B-Instruct 模型 + 单张 RTX 4090（24GB）本地环境为例，带你走完一次完整的 LoRA 微调实践，涵盖环境配置、数据准备、训练推理、效果评估到 API 部署等核心环节。目标很明确：让你真正掌握如何为一个通用大模型“注入灵魂”，让它变成你专属的智能助手。

环境准备：硬件与依赖不可少

任何微调任务的第一步，都是确保你的机器能跑得动。尤其对于 7B 规模的模型来说，GPU 是刚需。

显卡与驱动检查

首先确认你的 NVIDIA 显卡驱动和 CUDA 工具包已正确安装：

nvidia-smi

你应该能看到类似如下输出：

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.86.05 Driver Version: 535.86.05 CUDA Version: 12.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 NVIDIA GeForce RTX 4090 | 00000000:01:00.0 Off | N/A | | 30% 45C P0 80W / 450W | 2000MiB / 24576MiB | 5% Default | +-------------------------------+----------------------+----------------------+

重点关注是否有可用 GPU、显存大小是否充足（RTX 4090 的 24GB 足够支撑 QLoRA/LoRA 训练），以及 CUDA 支持版本。

📌建议参考表：
| 模型规模 | 推荐显存 | 可行方案 |
|---------|--------|--------|
| 7B~8B | ≥24GB | LoRA / QLoRA |
| 13B | ≥48GB | 多卡并行或QLoRA |
| 70B+ | 多A100集群 | Deepspeed Zero3 |

👉 新手推荐使用 RTX 3090 或 4090 单卡起步，性价比高且兼容性好。

Python 环境搭建

接下来创建独立虚拟环境，避免依赖冲突：

git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory conda create -n llafactory python=3.10 conda activate llafactory pip install -e ".[metrics]"

安装完成后验证 CLI 是否注册成功：

llamafactory-cli --help

如果能正常显示帮助信息，说明主库已就位。

再检查 PyTorch 是否识别到 GPU：

import torch print(torch.__version__) print(torch.cuda.is_available()) # 应返回 True print(torch.cuda.get_device_name(0))

若提示无 GPU，请注意 PyTorch 与 CUDA 版本匹配问题。推荐组合：PyTorch 2.0+ + CUDA 11.8 或 12.1。

下载模型并验证可用性

LLaMA-Factory 支持 Hugging Face 和 ModelScope 两种方式获取模型。国内用户建议优先使用 ModelScope，速度快且免权限申请。

以 Qwen-7B-Instruct 为例：

方式一：HuggingFace 克隆（需登录账号）

git clone https://huggingface.co/Qwen/Qwen-7B-Instruct

方式二：ModelScope 下载（推荐）

modelscope download --model_id qwen/Qwen-7B-Instruct

或者通过 Python 调用：

from modelscope import snapshot_download snapshot_download('qwen/Qwen-7B-Instruct')

📌 建议将模型路径记下来，后续训练会频繁引用。

下载后务必进行功能性测试，防止文件损坏导致训练失败：

from transformers import AutoTokenizer, pipeline import torch model_path = "/path/to/Qwen-7B-Instruct" tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True) pipe = pipeline( "text-generation", model=model_path, tokenizer=tokenizer, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto" ) messages = [ {"role": "system", "content": "你是一位精通AI技术的助手"}, {"role": "user", "content": "请解释什么是LoRA？"} ] prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7) print(outputs[0]["generated_text"][len(prompt):])

如果顺利输出关于 LoRA 的合理解释，说明模型加载成功。

数据集构建与注册

LLaMA-Factory 支持alpaca和sharegpt两种主流格式。我们采用alpaca格式来构建一个用于电商文案生成的数据集。

示例结构：

[ { "instruction": "根据商品特征生成广告语", "input": "类型#连衣裙*风格#优雅*材质#雪纺", "output": "轻盈雪纺打造梦幻优雅风，每一步都散发着迷人气质...", "system": "你是一个专业的电商文案助手" } ]

字段说明：
-instruction: 用户指令（必填）
-input: 上下文输入（可选）
-output: 正确回复（必填）
-system: 系统角色设定（影响语气风格）
-history: 多轮对话历史（可选）

我们将这个数据集命名为product_copywriting，保存为data/product_copywriting.json。

接着，在data/dataset_info.json中注册该数据集：

"product_copywriting": { "file_name": "product_copywriting.json", "columns": { "instruction": "instruction", "input": "input", "output": "output" } }

一旦注册完成，就可以直接在训练命令中使用--dataset product_copywriting来调用它。

基线测试：看看原始模型表现如何

在开始微调前，先看看原版 Qwen-7B-Instruct 的表现，建立一个 baseline。

启动内置聊天界面：

llamafactory-cli webchat \ --model_name_or_path /path/to/Qwen-7B-Instruct \ --template qwen

访问http://localhost:7860，尝试提问：

“你是谁？” → 应该回答“我是通义千问…”
“帮我写个情人节促销文案” → 观察其创意性和相关度

你会发现它的回答虽然通顺，但不够聚焦于电商业务场景，缺乏品牌感和销售驱动力。这正是我们需要微调的原因。

💡 提示：如果你是在云服务器上运行，记得设置以下环境变量以便外网访问：
bash export GRADIO_SERVER_NAME=0.0.0.0 export GRADIO_ROOT_PATH=/${JUPYTER_NAME}/proxy/7860/

开始微调：用 LoRA 注入新技能

现在进入正题。我们将使用 LoRA（Low-Rank Adaptation）技术，在低显存条件下高效更新模型权重。

执行以下训练命令：

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \ --stage sft \ --do_train \ --model_name_or_path /path/to/Qwen-7B-Instruct \ --dataset alpaca_zh,identity,product_copywriting \ --dataset_dir ./data \ --template qwen \ --finetuning_type lora \ --lora_target q_proj,v_proj \ --output_dir ./saves/Qwen-7B/lora/sft \ --overwrite_cache \ --overwrite_output_dir \ --cutoff_len 1024 \ --preprocessing_num_workers 8 \ --per_device_train_batch_size 2 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 8 \ --optim adamw_torch \ --learning_rate 3e-4 \ --num_train_epochs 3.0 \ --max_samples 500 \ --val_size 0.1 \ --evaluation_strategy steps \ --eval_steps 50 \ --save_steps 100 \ --logging_steps 10 \ --warmup_steps 10 \ --load_best_model_at_end \ --plot_loss \ --fp16

关键参数解读：

--stage sft：表示当前阶段是监督式微调（Supervised Fine-Tuning）
--finetuning_type lora：启用 LoRA 微调策略
--lora_target q_proj,v_proj：只在注意力层的 Q 和 V 投影矩阵上添加适配器，减少参数量
--dataset：同时使用多个数据集，逗号分隔
--val_size 0.1：自动划分 10% 数据作为验证集
--plot_loss：训练结束后自动生成损失曲线图，方便分析收敛情况

训练过程中你会看到 loss 逐渐下降，最终趋于平稳。完成后可在./saves/Qwen-7B/lora/sft找到产出物：

adapter_model.bin：LoRA 权重文件（通常只有几十MB）
adapter_config.json：配置元数据
training_loss.png：由--plot_loss生成的损失曲线

这些小文件就是我们“定制化知识”的载体。

推理测试：感受微调后的变化

训练完成后，我们可以动态加载 LoRA 权重进行即时推理，无需合并模型。

启动 WebChat：

llamafactory-cli webchat \ --model_name_or_path /path/to/Qwen-7B-Instruct \ --adapter_name_or_path ./saves/Qwen-7B/lora/sft \ --template qwen \ --finetuning_type lora

再次提问对比：

问题	原始模型回答	LoRA 微调后
“你是谁？”	“我是通义千问…”	“我是QwenBot，专精电商文案创作…”（已学习 identity）
“生成一条夏季防晒服广告语”	泛化描述	“冰感透气防晒服，户外暴晒也不怕，清凉一夏就选它！”（风格贴近样本）

✅ 效果显著！模型已经学会了新的身份定位和表达风格。

批量预测与量化评估

除了人工判断，还可以通过自动化指标衡量性能提升。

先安装中文评估依赖：

pip install jieba rouge-chinese nltk

然后运行批量预测：

llamafactory-cli train \ --stage sft \ --do_predict \ --model_name_or_path /path/to/Qwen-7B-Instruct \ --adapter_name_or_path ./saves/Qwen-7B/lora/sft \ --dataset product_copywriting \ --dataset_dir ./data \ --template qwen \ --finetuning_type lora \ --output_dir ./saves/Qwen-7B/lora/predict \ --per_device_eval_batch_size 1 \ --max_samples 20 \ --predict_with_generate

输出目录将生成两个关键文件：

generated_predictions.jsonl：包含每条输入的真实标签与模型输出
predict_results.json：自动计算的 BLEU、ROUGE 等指标

常见指标含义：

指标	含义
`bleu-4`	四元组 n-gram 匹配度，越高越好（0~100）
`rouge-1`	单词级别召回率
`rouge-l`	最长公共子序列相似度
`samples_per_second`	推理吞吐量，反映效率

这些数值可用于横向比较不同训练策略的效果差异，比如调整 learning rate 或 batch size 后的表现变化。

模型合并导出：为部署做准备

如果你想把 LoRA 权重永久融合进基座模型，便于后续迁移或部署，可以执行导出操作：

llamafactory-cli export \ --model_name_or_path /path/to/Qwen-7B-Instruct \ --adapter_name_or_path ./saves/Qwen-7B/lora/sft \ --template qwen \ --finetuning_type lora \ --export_dir ./merged_models/qwen-7b-product-v1 \ --export_device cpu \ --export_legacy_format false

导出后的模型位于./merged_models/qwen-7b-product-v1，可以直接用 Hugging Face 加载：

from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("./merged_models/qwen-7b-product-v1")

✅ 合并后的模型完全脱离 LLaMA-Factory 框架，可自由部署于 vLLM、TGI、OpenLLM 等高性能推理引擎。

零代码操作：WebUI 图形化工作台

LLaMA-Factory 内置的 WebUI 极大降低了入门门槛。只需一条命令即可启动：

llamafactory-cli webui

访问http://localhost:7860/ui，你会看到清晰的功能模块：

Train：可视化配置训练参数，支持 YAML 导出
Evaluate：一键运行 CMMLU/C-Eval 测评
Inference：聊天测试与批量生成
Export：引导式模型导出向导
API Docs：查看 OpenAI 兼容接口文档

在 Train 页面中，填写表单即可完成训练配置，点击“Start”即可启动任务。所有日志实时同步显示，非常适合教学演示或调试迭代。

📝 注意：目前 WebUI 主要适用于单机单卡训练，多卡或分布式场景仍建议使用命令行。

API Server：快速接入业务系统

训练好的模型可以通过内置 API 快速对外提供服务。

启动服务：

API_PORT=8000 llamafactory-cli api \ --model_name_or_path /path/to/Qwen-7B-Instruct \ --adapter_name_or_path ./saves/Qwen-7B/lora/sft \ --template qwen \ --finetuning_type lora

服务默认监听http://0.0.0.0:8000，遵循 OpenAI API 协议。

Python 调用示例：

import openai client = openai.OpenAI( base_url="http://localhost:8000/v1", api_key="none" ) response = client.chat.completions.create( model="qwen-7b-instruct", messages=[{"role": "user", "content": "写一个母亲节鲜花促销文案"}], max_tokens=128 ) print(response.choices[0].message.content)

这种设计让你可以轻松集成 LangChain、LlamaIndex 构建 RAG 应用链路。

🔐 安全提示：公网部署时请启用身份认证与限流机制，避免被滥用。

能力保留检测：微调不会“遗忘”一切

一个常见的担忧是：微调会不会导致模型“忘记”原有知识？我们可以通过标准 benchmark 来验证。

中文综合能力测评（CMMLU）

llamafactory-cli eval \ --model_name_or_path /path/to/Qwen-7B-Instruct \ --adapter_name_or_path ./saves/Qwen-7B/lora/sft \ --template qwen \ --task cmmlu \ --split validation \ --lang zh \ --n_shot 5 \ --batch_size 1

输出示例：

Average: 68.23 STEM: 61.45 Humanities: 70.12 Social Science: 72.88 Other: 67.91

中文知识理解测评（C-Eval）

llamafactory-cli eval \ --task ceval \ --split val \ --n_shot 5 \ ...

只要这些分数没有大幅下滑，就说明模型在学会新技能的同时，依然保持了原有的通用能力。这才是理想的微调状态。

LLaMA-Factory 不仅是一个工具，更是一种生产力范式的转变。它既照顾了初学者对易用性的需求，又保留了高级用户对灵活性的追求。通过这次实战，你应该已经掌握了如何从零开始训练一个属于自己的垂直领域模型。

下一步你可以尝试：

使用 QLoRA 在 24GB 显存上微调 13B 模型
结合 RAG 构建企业知识库问答系统
将微调模型部署至 Kubernetes 集群提供服务
参与开源社区贡献新模型适配

AI 的浪潮已至，而你，正在成为那个驾驭它的人。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

LLaMA-Factory微调实战：从环境搭建到模型部署