从 Python 到 Ollama:将微调后的 Llama-3/Qwen 一键导出为 GGUF
摘要:在上一篇教程中,我们在 RTX 3090 上成功微调了 Llama-3。但现在的模型还“躺”在 Python 脚本里,不够通用。本文将教你如何利用Unsloth强大的导出功能,将微调后的模型转换为GGUF 格式,并导入到Ollama中。这样,你就可以在终端、Obsidian 插件或任何支持 Ollama 的工具中随时调用你的专属模型了!
关键词:
UnslothGGUFOllama模型导出量化
0. 为什么要做这一步?
微调后的模型通常是以LoRA Adapter (适配器)的形式存在的(文件夹里只有几百 MB)。要让它像一个独立模型一样运行(比如发给朋友,或者在没有 Python 环境的电脑上跑),我们需要做两件事:
- 合并 (Merge):把 LoRA 的“补丁”打回到 Base Model(底座)上。
- 量化与导出 (Quantize & Export):转换为
llama.cpp生态通用的GGUF格式,通常使用 4bit (q4_k_m) 量化以平衡体积和性能。
好消息:Unsloth 框架原生支持这一步,只需几行代码,不需要复杂的make编译llama.cpp过程。
1. 环境确认
确保你处于我们之前的 Conda 环境中:
conda activate llm_learn2. 编写导出脚本
在工作目录下新建export_to_ollama.py。
我们将以Llama-3-8B为例(Qwen 同理,只需改路径)。
fromunslothimportFastLanguageModelimporttorch# 1. 加载微调后的模型# 这里的路径是我们上一篇教程保存 LoRA 的目录lora_model_path="lora_model_llama3"print(f" 正在加载 LoRA 模型:{lora_model_path}...")model,tokenizer=FastLanguageModel.from_pretrained(model_name=lora_model_path,max_seq_length=2048,dtype=None,load_in_4bit=True,)# 2. 执行导出# Unsloth 会自动处理合并、转换和量化# 导出为 q4_k_m (推荐,平衡速度和精度)print(" 正在合并并导出为 GGUF (q4_k_m)... 这可能需要几分钟...")model.save_pretrained_gguf("model_export",# 导出文件的存放目录tokenizer,quantization_method="q4_k_m",)print(" 导出完成!文件位于 model_export 目录下。")3. 执行导出
运行脚本:
python export_to_ollama.py执行过程解析:
- 脚本会加载底座模型和你的 LoRA 权重。
- 自动下载必要的转换工具(如果是第一次运行)。
- 开始转换…(RTX 3090 上大约需要 3-5 分钟)。
- 最终在
model_export目录下生成一个约5GB的.gguf文件(文件名通常包含unsloth和q4_k_m字样)。
4. 导入 Ollama
假设你已经安装了 Ollama(如果没有,请运行curl -fsSL https://ollama.com/install.sh | sh)。
4.1 创建 Modelfile
在model_export目录下创建一个名为Modelfile的文件:
# 这里的路径要替换成你实际生成的 gguf 文件名 FROM ./unsloth.Q4_K_M.gguf # 设置系统提示词 (System Prompt) SYSTEM """ 你是由 Soar 微调的 Llama-3 中文助手。请务必使用中文回答用户的问题。 """ # 设置参数 (可选) PARAMETER temperature 0.3 PARAMETER num_ctx 40964.2 导入模型
在终端中运行:
cdmodel_export ollama create my-llama3-cn -f Modelfile等待进度条跑完,显示success即大功告成!
5. 见证奇迹
现在,你可以随时随地在终端呼叫你的模型了:
ollama run my-llama3-cn测试输入:
“Who are you?”
预期输出:
“我是由开发者在 RTX 3090 上微调的 Llama-3 中文助手…”
恭喜!你已经完成了从模型训练到模型产品化的完整闭环。