news 2026/6/9 17:45:48

MIT:LLM自适应量化策略

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MIT:LLM自适应量化策略

📖标题:Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling
🌐来源:arXiv, 2512.02010

🌟摘要

随着大型语言模型的增长,NVFP4 等低精度数值格式因其提供的速度和内存优势而变得越来越流行。然而,为了用NVFP4加速计算,前向传递中的所有矩阵乘法操作数-权重和激活,后向传递中的权重、激活和梯度必须量化为NVFP4,通常会导致训练过程中的发散和推理过程中的性能下降。为了解决这个问题,在这项工作中,我们介绍了Four Over Six ,这是对 NVFP4 量化算法的修改,该算法评估每个块的两个潜在比例因子。与整数格式不同,FP4 等浮点格式在每个块的接近最大值上具有最大的量化误差,我们发现这主要负责下游性能下降。我们发现,对于某些块,缩放到较小的 FP4 值会使可表示值的分布更加均匀,提高了接近最大值的表示。重要的是,4/6 可以在 NVIDIA Blackwell GPU 上实现,这使得在使用 NVFP4 训练 LLM 时可以使用是可行的。在 Transformer 和混合模型架构的预训练实验中,我们发现 4/6 在某些情况下可以防止分歧,与使用当前最先进的 NVFP4 训练配方训练的模型相比,将训练损失显着更接近 BF16。我们还发现 4/6 可以很容易地合并到许多不同的训练后量化方法中,并且通常可以提高下游精度。我们希望这激发了未来使用 NVFP4 训练模型和部署模型的工作。项目在https://github.com/mit-han-lab/fouroversix

🛎️文章简介

🔸研究问题:如何通过自适应块缩放来提高NVFP4量化的精度?
🔸主要贡献:论文提出了一种新的量化方法Four Over Six,通过自适应缩放实现了NVFP4量化的准确性提升,并减少了计算开销。

📝重点思路

🔸引入了Four Over Six方法,该方法在处理量化时允许块使用不同的缩放值(4或6),以更准确地表示几乎最大的值。
🔸在预训练和后训练量化过程中,采用了基于均方误差(MSE)的缩放选择规则,比较不同缩放条件下的量化效果,以选择最优缩放策略。
🔸利用NVIDIA Blackwell GPU的PTX指令高效实现Four Over Six,确保在保持高性能的同时,量化过程的开销在合理范围内。

🔎分析总结

🔸Four Over Six显著减少了大型值的量化误差,提高了多种模型架构的预训练性能,解决了目前NVFP4训练过程中出现的发散问题。
🔸在后训练量化中,Four Over Six与现有方法(如GPTQ、AWQ、SmoothQuant)结合使用,可广泛提升不同任务的模型性能,尤其在Word Perplexity指标上显示出较大改善。
🔸引入Four Over Six的模型在各类任务上表现出更接近于高精度模型的效果,尤其在处理具有极大值的块时,展现出更佳的量化精度。

💡个人观点

论文的创新点在于自适应量化策略,使得NVFP4量化在保留快速计算优势的同时,也能显著提升模型的准确性。

🧩附录


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/7 2:29:22

31、日期计算脚本与Windows 10安装Bash指南

日期计算脚本与Windows 10安装Bash指南 1. 日期计算的挑战与GNU date的优势 在进行日期计算时,无论是判断某一年是否为闰年,计算距离圣诞节还有多少天,还是计算自己活了多少天,都是一件棘手的事情。基于Unix的系统(如OS X)和基于GNU的Linux系统在日期计算方面存在差异。…

作者头像 李华
网站建设 2026/6/8 16:25:48

家庭风险管理工程的知识体系

一、核心理念:家庭是一个需要主动管理的“脆弱系统” 家庭不是天然稳固的避风港,而是一个暴露在时间、健康、财务、关系四重熵增下的开放系统。家庭风险管理工程的本质是构建抗脆弱结构,将不可预测的冲击转化为可管理的波动。二、家庭系统脆弱…

作者头像 李华
网站建设 2026/6/8 22:00:04

PHP的public function __isset($name) {的庖丁解牛

public function __isset($name) 是 PHP 魔术方法(Magic Method)之一,用于拦截对未定义或不可访问属性的 isset() 或 empty() 操作。一、语义本质:它到底是什么? 官方定义(精炼):当对…

作者头像 李华
网站建设 2026/6/9 10:07:22

Autoware Universe 终极入门指南:从零开始掌握自动驾驶开发

Autoware Universe 终极入门指南:从零开始掌握自动驾驶开发 【免费下载链接】autoware.universe 项目地址: https://gitcode.com/gh_mirrors/au/autoware.universe Autoware Universe 是业界领先的开源自动驾驶平台,为开发者提供完整的自动驾驶解…

作者头像 李华
网站建设 2026/6/8 14:10:14

命令行数据处理的终极探索:VisiData快速精通指南

命令行数据处理的终极探索:VisiData快速精通指南 【免费下载链接】visidata saulpw/visidata: 这是一个用于交互式查看和编辑CSV、JSON、Excel等数据格式的命令行工具。适合用于需要快速查看和编辑数据的场景。特点:易于使用,支持多种数据格式…

作者头像 李华
网站建设 2026/6/8 9:51:41

终极技术评测:Wan2.2-I2V-A14B在三大平台的性能对决

终极技术评测:Wan2.2-I2V-A14B在三大平台的性能对决 【免费下载链接】Wan2.2-I2V-A14B Wan2.2是开源视频生成模型的重大升级,采用混合专家架构提升性能,在相同计算成本下实现更高容量。模型融入精细美学数据,支持精准控制光影、构…

作者头像 李华