news 2026/5/16 12:18:53

速度与准确性的结合:量化感知 LLM 预训练 “QAP“

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
速度与准确性的结合:量化感知 LLM 预训练 “QAP“

概述

尽管 LLM 在许多自然语言处理任务中都表现出了不俗的性能,但其推理速度和内存占用却是生产中的主要瓶颈。量化是解决这一问题的一种广泛应用的方法。然而,传统的量化方法存在一个问题,即通过降低模型的准确性来换取推理速度的提高。

本文表明,通过在 LLM 训练阶段引入量化感知的 “量化感知预训练”(QAP),可以克服这一权衡问题。

具体来说,通过在模型训练过程中提前模拟量化噪声的方法,实现了一种即使在量化后精度也不会轻易下降的结构。

因此,与传统模型相比,即使量化位宽相同,也能获得更高的精度和更快的推理性能。特别是,事实证明,与 FP16 精度模型相比,4 位量化模型的精度几乎没有下降,从而实现了具有成本效益的 LLM 操作。

建议的方法

本研究提出的核心方法是 QAP。这是一种在模型训练过程中注入伪量化误差,为将来应用量化做准备的方法。与传统的训练后量化(post-training quantisation)不同,QAP 引导模型在学习阶段就自然获得抗量化表示。

具体来说,最容易受到量化影响的线性变换层(尤其是注意力和 MLP)是以 4 位或 6 位精度模拟的,这一点反映在损失函数中。此外,预训练期间使用的数据和超参数与现有的高精度模型基本相同,因此实施 QAP 的额外成本可以忽略不计。
此外,所提出的方法还为量化敏感权重和激活添加了软正则化,从而进一步提高了学习稳定性和量化后的泛化性能。

这种方法可以很容易地集成到标准训练流水线中,具有很强的实用性,将来可以直接实现更快、更节省资源的 LLM。

实验

为了验证所提方法的有效性,作者基于 LLaMA-2 和 Mistral-7B 编制了多个版本的 4 位和 6 位量化 LLM,并对其准确性和推理速度进行了评估。

基准测试使用了多种任务,包括 MMLU、GSM8K 和 HumanEval,并对每个模型的性能进行了比较。

结果显示,与不支持的基本模型相比,在相同位宽下,QAP 实现的模型的准确率提高了 6.3 个百分点。

特别是在推理速度方面,该模型比基于 FP16 的模型快达 2.5 倍,同时运行精度几乎没有损失。

对不同量化方案(如 SmoothQuant、AWQ、GPTQ)的鲁棒性也进行了验证,结果表明,QAP’ed 模型能保持稳定的性能,与量化方案无关。
此外,培训成本的增加也非常小,这表明在现实操作环境中实施 QAP 的门槛很低。

这些结果表明,QAP 可以作为建立快速、节省内存和精确 LLM 的一种有前途的方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 1:32:51

无人机操控模式适用场景全解

无人机操控模式适用场景全解一、三大操控模式概览美国手(Mode 2)(全球主流,占70-85%)左手:升降(油门) 转向(偏航)右手:前后(俯仰) 左右(横滚)核心优势:操作直观,符合人体工程学,培…

作者头像 李华
网站建设 2026/5/12 7:02:37

73%部署提速!Grok-2 Tokenizer如何优化开源大模型落地流程

导语 【免费下载链接】grok-2 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/grok-2 Grok-2 Tokenizer兼容Hugging Face生态的重要进展,将万亿参数模型部署流程从45分钟压缩至12分钟,错误率降低76%,为开源大模型商业化落地扫…

作者头像 李华
网站建设 2026/5/9 2:41:42

Apache2一句话木马

一.查看虚拟机ip 二.在主机的浏览器地址栏中输入kali的ip 即可看到apache2的初始界面。 三.打开kali文件,找到名为File_System的文件,如果找不到,也可以在kali终端输入nautilus / 快捷进入File_System。 四.写shell.php木马创建一个php文件…

作者头像 李华
网站建设 2026/5/12 16:24:28

50、Linux系统管理:日志文件与系统时间维护

Linux系统管理:日志文件与系统时间维护 1. 系统日志管理 系统日志在系统管理中起着至关重要的作用,它可以记录系统活动、帮助排查问题。以下是关于系统日志管理的详细内容。 1.1 日志消息发送规则 系统可以根据不同的规则将日志消息发送到不同的位置。例如,有这样一条规…

作者头像 李华
网站建设 2026/5/13 0:59:16

52、Linux 系统定时任务管理全解析

Linux 系统定时任务管理全解析 在 Linux 系统管理中,定时任务的管理是一项至关重要的工作。通过合理安排任务的执行时间,可以实现系统的自动化维护,提高工作效率。本文将详细介绍 Linux 系统中几种常用的定时任务管理工具,包括 cron、anacron 和 at,并提供具体的使用方法…

作者头像 李华