news 2026/3/3 3:04:47

从 Python 到 Ollama:将微调后的 Llama-3/Qwen 一键导出为 GGUF

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从 Python 到 Ollama:将微调后的 Llama-3/Qwen 一键导出为 GGUF

从 Python 到 Ollama:将微调后的 Llama-3/Qwen 一键导出为 GGUF

摘要:在上一篇教程中,我们在 RTX 3090 上成功微调了 Llama-3。但现在的模型还“躺”在 Python 脚本里,不够通用。本文将教你如何利用Unsloth强大的导出功能,将微调后的模型转换为GGUF 格式,并导入到Ollama中。这样,你就可以在终端、Obsidian 插件或任何支持 Ollama 的工具中随时调用你的专属模型了!

关键词UnslothGGUFOllama模型导出量化


0. 为什么要做这一步?

微调后的模型通常是以LoRA Adapter (适配器)的形式存在的(文件夹里只有几百 MB)。要让它像一个独立模型一样运行(比如发给朋友,或者在没有 Python 环境的电脑上跑),我们需要做两件事:

  1. 合并 (Merge):把 LoRA 的“补丁”打回到 Base Model(底座)上。
  2. 量化与导出 (Quantize & Export):转换为llama.cpp生态通用的GGUF格式,通常使用 4bit (q4_k_m) 量化以平衡体积和性能。

好消息:Unsloth 框架原生支持这一步,只需几行代码,不需要复杂的make编译llama.cpp过程。


1. 环境确认

确保你处于我们之前的 Conda 环境中:

conda activate llm_learn

2. 编写导出脚本

在工作目录下新建export_to_ollama.py
我们将以Llama-3-8B为例(Qwen 同理,只需改路径)。

fromunslothimportFastLanguageModelimporttorch# 1. 加载微调后的模型# 这里的路径是我们上一篇教程保存 LoRA 的目录lora_model_path="lora_model_llama3"print(f" 正在加载 LoRA 模型:{lora_model_path}...")model,tokenizer=FastLanguageModel.from_pretrained(model_name=lora_model_path,max_seq_length=2048,dtype=None,load_in_4bit=True,)# 2. 执行导出# Unsloth 会自动处理合并、转换和量化# 导出为 q4_k_m (推荐,平衡速度和精度)print(" 正在合并并导出为 GGUF (q4_k_m)... 这可能需要几分钟...")model.save_pretrained_gguf("model_export",# 导出文件的存放目录tokenizer,quantization_method="q4_k_m",)print(" 导出完成!文件位于 model_export 目录下。")

3. 执行导出

运行脚本:

python export_to_ollama.py

执行过程解析

  1. 脚本会加载底座模型和你的 LoRA 权重。
  2. 自动下载必要的转换工具(如果是第一次运行)。
  3. 开始转换…(RTX 3090 上大约需要 3-5 分钟)。
  4. 最终在model_export目录下生成一个约5GB.gguf文件(文件名通常包含unslothq4_k_m字样)。

4. 导入 Ollama

假设你已经安装了 Ollama(如果没有,请运行curl -fsSL https://ollama.com/install.sh | sh)。

4.1 创建 Modelfile

model_export目录下创建一个名为Modelfile的文件:

# 这里的路径要替换成你实际生成的 gguf 文件名 FROM ./unsloth.Q4_K_M.gguf # 设置系统提示词 (System Prompt) SYSTEM """ 你是由 Soar 微调的 Llama-3 中文助手。请务必使用中文回答用户的问题。 """ # 设置参数 (可选) PARAMETER temperature 0.3 PARAMETER num_ctx 4096

4.2 导入模型

在终端中运行:

cdmodel_export ollama create my-llama3-cn -f Modelfile

等待进度条跑完,显示success即大功告成!


5. 见证奇迹

现在,你可以随时随地在终端呼叫你的模型了:

ollama run my-llama3-cn

测试输入

“Who are you?”

预期输出

“我是由开发者在 RTX 3090 上微调的 Llama-3 中文助手…”

恭喜!你已经完成了从模型训练模型产品化的完整闭环。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/22 14:17:00

文档结构化系统:利用OCR、自然语言处理等技术实现档案智能识别、自动分类和多维度关联

档案管理作为组织记忆的守护者,长期以来面临着检索困难、管理成本高、安全风险大等挑战。传统的档案管理模式往往依赖于人工分类、纸质存储和线性检索,耗费大量时间与空间资源。文档结构化系统的引入,正从根本上改变这一现状,将档…

作者头像 李华
网站建设 2026/3/2 20:31:34

补充——CSS伪元素选择器,继承,优先级以及字体样式

目录 一、伪元素选择器: 二、样式的继承: 三、优先级: 四、字体样式: 长度单位: 1、绝对单位: 2、相对单位: 颜色单位: 1:直接使用单词 2:使用RGB值来表示不同的颜色 3:RG…

作者头像 李华
网站建设 2026/3/2 19:12:48

光伏设计新选择:鹧鸪云

在光伏电站开发领域,传统设计模式的痛点早已凸显:人工测量耗时费力,二维图纸难以还原场地实况,数据偏差动辄引发发电量预测失准、施工返工等连锁问题,严重制约项目推进效率与收益。如今,无人机与数字化技术…

作者头像 李华
网站建设 2026/2/28 0:46:25

大模型微调7种方法:零基础入门全指南

大模型微调是让通用预训练模型适配特定任务的核心技术,分为全量微调与参数高效微调(PEFT)两大类。对零基础学习者而言,PEFT方法因低资源需求、易上手的优势成为首选。以下详细解析7种主流微调方法,并梳理极简入门流程&…

作者头像 李华
网站建设 2026/3/2 21:35:15

如何实现pdf一页内容分割成多页打印?详细教程分享

做好的设计稿是A2尺寸,可打印机只支持A4怎么办?直接缩印的话字体会小到看不清楚。其实可以试试将PDF一页内容分割成多页,打印好后再拼接到一起,清晰度不受影响,还不用特意跑打印店。有同样需求的朋友赶紧码住学起来~一…

作者头像 李华
网站建设 2026/2/25 8:42:27

【学习笔记】《道德经》第56章

《道德经》第56章 学习整理 本整理基于James Legge经典英文译本,结合标准中文(参考王弼本),从英文学习角度系统呈现内容。结构分为三个部分: 逐句中英对照翻译现代日常口语版英文关键短语口语对应表及使用建议 一、逐句…

作者头像 李华