news 2026/5/16 12:02:15

硬件有限,如何部署“大”模型?AMCT模型压缩工具3步解忧

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
硬件有限,如何部署“大”模型?AMCT模型压缩工具3步解忧

我们在谈论AI大模型时,一方面会为其在逻辑推理、问题回答等各种任务中的表现出色而惊叹,另一方面也会为其巨大存储和海量计算而“头疼”。模型尺寸的不断增长确实给模型部署带来了极大的挑战,动辄几十GB,上百GB甚至上千GB的存储量,昂贵的硬件资源需求不仅让普通用户难以企及,企业用户也常常面临挑战。

在保持模型能力的前提下,如何降低模型存储需求,如何降低模型计算时延,是模型开发者和性能优化专家研究的热点问题,而模型量化压缩优化是解决这些问题的最重要的手段之一。量化效果好不好,跟原始数据的分布紧密相关,如果原始数据中存在outlier离群值,直接量化往往无法兼顾所有数据,量化效果通常会比较差。量化压缩算法通过各种方式来调整数据分布或调整量化方式,来提升最终的量化效果。AWQ/GPTQ算法对模型权重进行压缩,在保持网络精度的同时,可以将模型权重压缩到4bit,相比BF16数据模型权重参数量降低75%;SmoothQuant对激活和权重都做压缩,通过硬件更高效的低比特矩阵乘运算,不仅拿到了内存收益,同时降低了端到端的时延,提升了系统吞吐。AMCT模型压缩工具,将这些算法集成到工具中,开发者拿来即用,可以满足仅权重量化,激活权重量化等不同场景的使用需求。

对模型优化的开发者来说,硬件资源通常比较有限,如何在有限的硬件资源中高效完成模型压缩的全过程,也是开发者重点关注的问题。AMCT提供的逐block量化的算法,将模型拆分成小的量化模块单元,每个量化模块都可以单独执行量化校准过程。这些量化模块可以分配在不同的NPU卡上并行执行,大大提升了开发效率;即使开发者只有一张NPU卡,通过分块执行的方式也可以完成DeepSeek-V3.2这种尺寸规模的模型量化。MoE模型因为每个专家在模型中热度不同,整网的量化校准需要很多量化校准数据才能覆盖全部专家,逐block量化对于提升MoE模型的量化效率特别有帮助。

此外,AMCT工具简单易用,它是基于PyTorch框架做模型压缩,开发者只需要调用2,3个简单的python接口就可以完成模型压缩。量化配置的方法也很灵活,开发者可自行修改量化配置文件,调整压缩策略,获取较优的压缩结果。

参照上图,通过3步完成模型“瘦身”:

1. 准备好量化配置,调用amct.quantize接口,将原始模型转换成量化校准模型。

2. 准备好校准数据集,对量化校准模型进行校准推理,得到量化参数。

3. 调用amct.convert接口,将量化模型转换成昇腾亲和的部署模型。

欢迎关注昇腾CANN公众号,及时获取直播时间与观看链接,相信通过这次直播,大家会对AMCT的使用有更深入的了解,也能够在今后的开发工作中充分发挥它们的强大威力,为昇腾芯片的应用开发带来更多的创新和突破!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/16 5:34:15

【毕业设计】基于SpringBoot+Vue技术的医院运营管理系统的设计与实现(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/14 9:27:39

Java毕设选题推荐:基于SpringBoot的非遗产品交流销售平台的设计与实现基于springboot的非遗文化传承与推广平台系统【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/15 1:17:11

学长亲荐8个AI论文平台,本科生毕业论文轻松搞定!

学长亲荐8个AI论文平台,本科生毕业论文轻松搞定! 论文写作的“隐形助手”:AI 工具如何改变你的毕业之路 在当今这个信息爆炸的时代,高校学生的论文写作压力与日俱增。无论是选题、大纲搭建,还是内容撰写和查重降重&…

作者头像 李华
网站建设 2026/5/10 5:47:00

当花朵学会组团解题:新型花授粉算法的暴力美学

新授粉方式的花授粉算法 该算法采用惯性权重、两组随机个体差异矢量和Lvy机制构建新的全局搜索策略,提高算法的全局探索能力;利用信息共享机制、FPA/rand/1和FPA/best/2融合的局部搜索策略,增强算法的局部开发能力;运用基于高斯变…

作者头像 李华
网站建设 2026/5/16 6:36:40

【计算机毕业设计案例】基于springboot的非遗文化传承与推广平台系统收录技艺图谱、传承人档案、历史渊源,支持图文、视频(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/14 8:24:19

Kamailio 增加 date sip 头

route[DATE] {if (is_request()) {$var(us) $TV(u);$var(ms) $var(us) / 1000;append_to_reply("Date: $timef(%Y-%m-%dT%H:%M:%S).$var(ms)\r\n");} }跟时间/日期有关的伪变量还有一些, 比如下面这段路由:$var(sql) $_s(DELETE FROM location WHERE e…

作者头像 李华