news 2026/1/15 7:49:34

2张4090本地微调万亿参数模型!KTransformers上线模型微调功能,使用指南来了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2张4090本地微调万亿参数模型!KTransformers上线模型微调功能,使用指南来了

你是否曾因算力门槛而对大模型望而却步?想要尝试微调千亿/万亿参数的模型?那更是不敢想象。今天,这个困局正在被打破。

近日,趋境科技与清华KVCache.AI共同开源的KTransformers上线模型微调功能。其与LLaMA-Factory合作,能够实现在本地对DeepSeek 671B乃至Kimi K2 1TB这样的超大模型进行LoRA微调。是目前在消费级显卡上实现微调超大参数MoE模型的唯一可行方案

更令人惊喜的是,该方案不仅解决了"能不能跑"的问题,更在"跑得多快"上表现出色。在较小规模模型上实现了1.8倍的吞吐提升,同时将显存占用降低82%。

  • GitHub地址:

    https://github.com/kvcache-ai/ktransformers

01

详细介绍

KTransformers自2024年发布以来,作为专注于大模型推理优化的开源框架,一直以其独特的异构计算策略闻名。通过KTransformers,单张4090即可部署千亿/万亿级别的大模型。

而LLaMA-Factory是目前非常流行的开源大模型微调框架,以其低代码、高效率的特点在开发者社区广受好评。

在这次合作中,LLaMA-Factory与KTransformers各自有明确分工,具体而言:

  • LLaMA-Factory是整个微调流程的统一调度与配置框架,负责数据处理、训练调度、LoRA插入与推理接口管理;
  • KTransformers则作为其可插拔的高性能后端,在相同的训练配置下接管Attention / MoE等核心算子,实现异构设备(GPU+CPU)的高效协同。

虽然LLaMA-Factory有HuggingFace默认后端、Unsloth后端以及KTransformers后端,但经团队对比测试,KTransformers是目前唯一能在2~4张 24GB 4090卡上微调671B规模MoE模型的方案;同时在14B规模的MoE模型上,相比另两种方案也具有更高的吞吐速率和更低的GPU显存占用。

02

实测效果

1、风格化对话测试(CatGirl风格语气)

团队首先在NekoQA-10K数据集上进行了风格化对话测试,这是一个面向猫娘语言建模的对话数据集。

对比原始模型和微调模型,可以看到微调后的模型已经不在是冷冰冰的标准化回答,而是在语气和称谓上稳定地保持了猫娘风格(红框部分),验证了风格迁移微调的有效性。

2、生成式翻译风格基准测试

团队还进行了翻译风格测试,采用西式翻译腔数据集,要求模型采用夸张的“西式翻译腔”,属于生成式风格控制任务,评价指标为BLEU-1/2/3/4与 ROUGE-1/2/L。

可以看到两种规模的模型在微调后均出现一致性增益,展现出“KT后端 + LoRA微调”组合在生成式风格控制上的可用性与有效性。同时说明KT的异构放置与算子优化能够稳定支撑风格域的小样本适配。

3、医疗垂直领域基准(AfriMed-SAQ/MCQ)

在医疗垂直领域微调也十分有效,数据集采用非洲地区医疗领域的专用数据集AfriMed-QA(ACL-2025),具有很强的场景定制特征,包含单选题(MCQ)和简答题(SAQ)两种形式。评估标准上,SAQ用BLEU/ROUGE;MCQ用Accuracy。

03

如何使用

下面将为大家讲解如何安装环境并通过LLaMA-Factory + KTransformers的方式完成微调和推理。

为简化KTransformers安装过程,团队特意打包了一个wheel文件,避免本地编译。(注意:应确保本地Python版本、Torch版本、CUDA版本和KTransformers wheel 文件名正确对应。)

1、环境安装

# 1. 安装conda环境 conda create -n Kllama python=3.10# choose from : [3.10, 3.11, 3.12, 3.13] conda install -y -c conda-forge libstdcxx-ng gcc_impl_linux-64 conda install -y -c nvidia/label/cuda-11.8.0 cuda-runtime # 2. 安装llamafactory环境 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch,metrics]" --no-build-isolation # 3. 从 https://github.com/kvcache-ai/ktransformers/releases/tag/v0.4.1 安装与 Torch 和 Python 版本匹配的 KTransformers 软件包(注意:CUDA 版本可以与 wheel 文件命名不一致。) pip install ktransformers-0.4.1+cu128torch28fancy-cp310-cp310-linux_x86_64.whl # 4. 安装 flash-attention,请根据 Python 和 Torch 版本从以下地址下载对应文件:https://github.com/Dao-AILab/flash-attention/releases pip install flash_attn-2.8.3+cu12torch2.8cxx11abiTRUE-cp310-cp310-linux_x86_64.whl # abi=True/False 可以用下面代码查看 # import torch # print(torch._C._GLIBCXX_USE_CXX11_ABI) # 5. (可选)如果希望使用 flash_infer(若不指定则默认使用 triton) git clone https://github.com/kvcache-ai/custom_flashinfer.git pip install custom_flashinfer/

使用提示:在LLaMA-Factory的YAML配置文件中,设置use_kt: true,并选择一个kt_optimize_ruleYAML文件,即可让KTransformers处理核心计算。下面将通过具体功能说明如何设置相关配置。

核心功能 1:使用 KTransformers 后端微调超大规模MoE模型

运行命令:

USE_KT=1 llamafactory-cli train examples/train_lora/deepseek3_lora_sft_kt.yaml

注意:必须提供BF16格式的模型。DeepSeek-V3-671B默认以FP8格式发布;请使用 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/inference/fp8_cast_bf16.py脚本进行格式转换。

### model model_name_or_path: opensourcerelease/DeepSeek-V3-bf16 trust_remote_code: true ### method stage: sft do_train: true finetuning_type: lora lora_rank: 8 lora_target: all ### dataset dataset: identity template: deepseek cutoff_len: 2048 max_samples: 100000 overwrite_cache: true preprocessing_num_workers: 16 dataloader_num_workers: 4 ### output output_dir: saves/Kllama_deepseekV3 logging_steps: 10 save_steps: 500 plot_loss: true overwrite_output_dir: true save_only_model: false report_to: none # choices: [none, wandb, tensorboard, swanlab, mlflow] ### train per_device_train_batch_size: 1 gradient_accumulation_steps: 8 learning_rate: 1.0e-4 num_train_epochs: 3.0 lr_scheduler_type: cosine warmup_ratio: 0.1 bf16: true ddp_timeout: 180000000 resume_from_checkpoint: null ### ktransformers use_kt: true# use KTransformers as LoRA sft backend kt_optimize_rule: examples/kt_optimize_rules/DeepSeek-V3-Chat-sft-amx-multi-gpu.yaml cpu_infer: 32 chunk_size: 8192

其中,kt_optimize_rule用于控制计算资源的放置策略。下为针对YAML文件名和功能对照特别说明,也可参考https://github.com/kvcache-ai/ktransformers/tree/main/ktransformers/optimize/optimize_rules目录。(* 表示通配符):

例如:DeepSeek-V3-Chat-sft-amx-multi-gpu.yaml为DeepSeek-V3-Chat模型使用AMX指令集和双GPU模型并行技术微调。

建议使用AMX指令集加速(可通过 lscpu | grep amx 命令检测CPU是否支持AMX指令集)。AMX支持BF16/INT8精度。修改方式如下:

- match: name: "^model\\.layers\\..*\\.mlp\\.experts$" replace: class: ktransformers.operators.experts.KTransformersExperts # custom MoE Kernel with expert parallelism kwargs: prefill_device: "cpu" prefill_op: "KExpertsTorch" generate_device: "cpu" generate_op: "KSFTExpertsCPU" out_device: "cuda" backend: "AMXInt8"# or "AMXBF16" or "llamafile" (default)

输出文件将保存到output_dir目录中,默认为safetensors格式并包含适配器元数据,便于后续加载使用。

核心功能二:与微调后的模型(基础模型 + LoRA 适配器)进行对话

运行命令:

llamafactory-cli chat examples/inference/deepseek3_lora_sft_kt.yaml

使用通过KTransformers训练得到的safetensors格式适配器进行推理。

model_name_or_path: opensourcerelease/DeepSeek-V3-bf16 adapter_name_or_path: saves/Kllama_deepseekV3 template: deepseek infer_backend: ktransformers # choices: [huggingface, vllm, sglang, ktransformers] trust_remote_code: true use_kt: true# use KTransformers as LoRA sft backend to inference kt_optimize_rule: examples/kt_optimize_rules/DeepSeek-V3-Chat-sft-amx-multi-gpu.yaml cpu_infer: 32 chunk_size: 8192

同时还支持GGUF格式的适配器:对于safetensors格式,设置目录路径;对于GGUF格式,需要在adapter_name_or_path中设置具体的GGUF格式文件。

在加载过程中,LLaMA-Factory会将层名称映射到KT的命名规范。会看到类似 Loaded adapter weight: XXX -> XXX 的日志记录:

核心功能三:批量推理与指标评估(基础模型 + LoRA 适配器)

运行命令:

API_PORT=8000 llamafactory-cli api examples/inference/deepseek3_lora_sft_kt.yaml

调用经KTransformers微调的适配器来提供API;其他API的使用逻辑与原生LLaMA-Factory方式一致。

model_name_or_path: opensourcerelease/DeepSeek-V3-bf16 adapter_name_or_path: saves/Kllama_deepseekV3 template: deepseek infer_backend: ktransformers # choices: [huggingface, vllm, sglang, ktransformers] trust_remote_code: true use_kt: true# use KTransformers as LoRA sft backend to inference kt_optimize_rule: examples/kt_optimize_rules/DeepSeek-V3-Chat-sft-amx-multi-gpu.yaml cpu_infer: 32 chunk_size: 8192

04

总结

KTransformers与LLaMA-Factory的这次联手,远不止是一次技术迭代,更是一次深刻的行业范式转移。这感觉就像,以前我们只能远远看着博物馆里的名画,后来终于能凑近看了,而现在,他们直接把画笔递到你手里,说:“来,照着你的想法改”。万亿模型,从此不再是巨头们的专属玩具,而是每个人手中的积木。接下来,就看我们怎么用它搭出下一个惊喜了。

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】


四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/13 5:25:29

计算机毕业设计springboot网络教学系统 基于Spring Boot框架的在线教育平台开发与实现 Spring Boot驱动的网络教学管理系统设计与构建

计算机毕业设计springboot网络教学系统ohv0b9 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着互联网技术的飞速发展,传统教育模式正逐渐被网络教学所改变。网络教…

作者头像 李华
网站建设 2026/1/10 1:45:05

基于MGeo的地址纠错系统设计思路

基于MGeo的地址纠错系统设计思路 引言:地址数据治理中的核心挑战与MGeo的破局之道 在电商、物流、本地生活等依赖地理信息的业务场景中,用户输入的地址往往存在大量拼写错误、表述不规范、别名混用等问题。例如,“北京市朝阳区望京SOHO”可能…

作者头像 李华
网站建设 2026/1/8 14:29:43

Z-Image-Turbo模型对比:快速搭建多实例测试平台

Z-Image-Turbo模型对比:快速搭建多实例测试平台 为什么需要多实例测试平台 在AI绘画领域,技术选型团队经常需要对比不同模型的生成效果、速度和资源消耗。传统方式下,搭建多个测试环境不仅耗时费力,还容易遇到依赖冲突、显存不足等…

作者头像 李华
网站建设 2026/1/10 7:00:55

毕业设计救星:基于预装镜像的MGeo地址处理实验环境

毕业设计救星:基于预装镜像的MGeo地址处理实验环境 作为GIS专业的学生,你是否正在为毕业论文中10万条地址数据的实体对齐算法验证而发愁?学校实验室服务器资源紧张,个人笔记本跑不动大规模数据处理,这时候你需要一个即…

作者头像 李华
网站建设 2026/1/13 18:36:14

文化遗产保护:用生成模型修复历史照片的技术实现

文化遗产保护:用生成模型修复历史照片的技术实现 历史照片承载着珍贵的文化记忆,但随着时间的推移,这些照片往往会出现褪色、划痕、破损等问题。传统的手工修复方法效率低下,且对修复师的技术要求极高。如今,借助生成式…

作者头像 李华
网站建设 2026/1/10 1:15:40

基于大数据的中国不同城市奶茶品牌的影响力分析

文章目录大数据视角下中国城市奶茶品牌影响力分析摘要主要技术与实现手段系统设计与实现的思路系统设计方法java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!大数据视角下中国城市奶茶品牌影响力分析摘要 近年来…

作者头像 李华