news 2026/4/22 11:06:17

【量化】w8a8及per-channel等概念辨析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【量化】w8a8及per-channel等概念辨析

在看FlashAttention的一个issue时,问了大模型推荐了这篇文章,解决了我长期以来对量化方面存在的几个疑问的点。

  1. w8a8,w4a8这么多的量化手段到底是什么意思?
    W指权重,A指激活值。权重就是模型训练好后固定下来的,可以理解成大模型的记忆,也即神经网络的配置。A是在实际推理过程中的激活值。W4A8就是指权重用int4量化,激活值用W8A8量化。二者的区别在于,权重是静态的,在模型训练好后就不变了。激活值是动态的,是碎输入值的变化而变化的。因此采用W更小的方式会更加节省权重存放的显存占用,使用更小的A可以加速推理计算和节省推理中占用的现存,当前受硬件和模型效果的约束,A一般不会压缩到8以下。
  2. per-channel, per-tensor, per-token的区别
    上述指的是我们的量化的范围,有一个基本的尝试就是量化并不是直接压缩数据,这样会从高精度浮点空间下降到低精度整型空间。因此还需要一个scale变量来进行缩放,以实现仍然在浮点空间存放。scale的存在决定了如果scale的范围更大,用一个scale表示的误差就会更大。一方面会受到某个局部值的影响;另一方面范围越大越可能出现溢出等问题,造成精度损失。但范围越小,需要的scale变量越多,计算开销越大。
    因此需要平衡好合适的计算范围,以实现满足计算要求的同时尽量降低计算开销。per-tensor就是对整个tensor进行一次量化。而per-channel将其分割成多个channel(维度),对每个维度进行独立的量化,就可以实现更好的量化效果。per-token将范围进一步缩小到单个token,量化效果更好,开销更大。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/21 20:18:15

【网络安全】Nmap 端口扫描工具 Windows 安装指南 + 最全命令汇总!

Nmap的介绍 nmap(Network Mapper)是一款开源免费的针对大型网络的端口扫描工具,nmap可以检测目标主机是否在线、主机端口开放情况、检测主机运行的服务类型及版本信息、检测操作系统与设备类型等信息。本文主要介绍nmap工具安装和基本使用方…

作者头像 李华
网站建设 2026/4/18 7:14:33

医学影像AI的全新突破:比人类医生更精准的“超级眼睛“诞生记

在医疗科技的历史长河中,很少有发明能够像X射线、CT扫描或MRI那样彻底改变医生诊断疾病的方式。如今,加州大学伯克利分校的Kumar Krishna Agrawal领导的研究团队带来了一项可能同样具有革命性意义的突破——他们开发出了一款名为Pillar-0的人工智能系统&…

作者头像 李华
网站建设 2026/4/22 2:54:52

测试域名挖掘 = 漏洞提款机?SRC 挖洞攻略,零基础看这篇就够

从测试域名挖掘入手:探索SRC漏洞的深度攻略 在网络安全领域,SRC(安全应急响应中心)漏洞挖掘是一场充满挑战与机遇的探索之旅。近期在对某SRC进行挖掘的过程中,一套独特且通用的挖掘思路浮出水面,其围绕测试…

作者头像 李华