news 2026/3/27 20:28:20

揭秘边缘AI性能7倍提升：模型量化与推测解码技术

张小明

前端开发工程师

1.2k 24

文章封面图 — 揭秘边缘AI性能7倍提升：模型量化与推测解码技术

某中心的Jetson AGX Thor边缘计算平台，自2025年8月发布以来，通过持续的软件优化，其生成式AI性能已实现了7倍的增长。

持续的软件优化

随着最新的vLLM容器发布，与8月底首发日的性能相比，Jetson Thor在相同模型和量化配置下，性能提升了高达3.5倍。表1对比了Llama 3.3 70B和DeepSeek R1 70B模型在8月发布时与2025年9月最新基准测试中的输出令牌/秒性能。

系列	模型	Jetson AGX Thor 2025年9月 (输出令牌/秒)	Jetson AGX Thor 2025年8月 (输出令牌/秒)	相比发布时的速度提升
Llama	Llama 3.3 70B	41.5	12.6	3.3x
DeepSeek	DeepSeek R1 70B	40.29	11.5	3.5x

表1. Llama 3.3和DeepSeek R1发布时与最新基准测试的令牌/秒输出对比
基准测试配置：序列长度：2048，输出序列长度：128；最大并发数：8；电源模式：MAXN

Jetson Thor的vLLM容器现已支持Eagle 3推测解码，可进一步提升生成式AI模型的性能。例如，在Llama 3.3 70B模型上使用推测解码，可获得88.62输出令牌/秒，相比首发性能实现了7倍加速。

零日支持运行最新模型

开发者可在边缘端使用Jetson Thor，并享受零日支持，运行最新、最强大的生成式AI模型。例如，gpt-oss在Jetson AGX Thor发布当日就获得了llamacpp/ollama的支持，同时也得到了vLLM的支持。同样，许多某中心Nemotron模型也获得了周级零日支持，例如：

Nemotron Nano 9B v2
Nemotron Nano 9B v2 FP8
Llama-3.1 Nemotron Nano 8B v1
Llama-3.1 Nemotron Nano 4B v1.1

通过量化与推测解码实现最大性能

要充分发挥Jetson Thor在边缘生成式AI方面的强大能力，需要采用正确的技术。量化与推测解码是加速LLM和VLM推理的两大核心策略。

量化：缩小模型尺寸，加速推理

量化本质上是降低模型数据（权重和激活）数值精度的过程。这带来两大优势：

更小的内存占用：这是解锁在设备上运行更大模型的关键。通过减少每个参数所需的字节数，可以加载原本因尺寸过大而无法运行的模型。
更快的存储器访问：更小的权重意味着需要从存储器提取到计算核心的字节数更少，直接降低了延迟，这对边缘应用至关重要。

在Jetson Thor上，两种最重要的格式是：

FP8：这是近乎无损优化的首选第一步。它能将权重内存减半，使得70B模型得以在设备上实际加载和运行。校准得当后，FP8的精度非常接近FP16基线，是对话和通用工作负载的“安全第一步”。
W4A16（4位权重，16位激活）：通过将静态模型权重量化为超紧凑的4位，同时保持动态计算（激活）在更高精度的16位，W4A16解锁了在边缘运行超大规模模型的可能性。

格式选择建议：从W4A16开始尝试。它通常能提供最高的推理速度和最低的内存占用。如果量化后的模型在任务上的精度满足要求，则坚持使用。若任务更复杂，发现W4A16精度不足，则切换到FP8。

推测解码：采用草稿-验证方法提升推理

选定量化格式后，下一个重要的性能杠杆是推测解码。该技术通过使用两个模型来加速推理：一个快速的小型“草稿”模型和一个准确的大型“目标”模型。
其工作原理是：

草稿模型快速生成一批候选令牌。
目标模型一次性验证整个令牌块，而不是逐个令牌生成。

这种“起草-验证”过程每个周期能生成多个令牌，同时保证最终输出与目标模型单独产生的结果完全相同。成功与否由接受率（草稿令牌被接受的百分比）衡量。高接受率能带来显著的延迟优势。

在实验中，EAGLE-3推测解码带来了最佳的加速效果。在Llama 3.3 70B（W4A16）上的基准测试显示，该功能实现了2.5倍的性能提升。

结合量化与推测解码

将这两种技术结合使用能产生更佳的效果。可以使用内置了优秀EAGLE-3支持的vLLM。某中心正在发布一个独立的vLLM容器，支持Jetson Thor，并每月更新包含最新的改进。

以下是找到模型质量与推理性能最佳平衡点的分步指南：

建立质量基线：在优化前，以尽可能高的精度加载模型，验证其能否正确执行任务。
使用量化进行优化：逐步降低权重精度，在每一步测试精度，直到质量不再满足要求时停止。
进行现实基准测试：使用模拟工作负载的性能基准来验证最终配置。

如果所选模型仍然不够快，则使用更小的模型重复此过程。可以通过实践教程了解如何运行这些性能基准测试。

现在，开发者可以满怀信心地提升其生成式AI模型在Jetson Thor上的性能了。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/3/18 19:19:55

为何传统下载工具已过时？新一代B站视频管理方案揭秘

为何传统下载工具已过时？新一代B站视频管理方案揭秘【免费下载链接】bilidown 哔哩哔哩视频解析下载工具，支持 8K 视频、Hi-Res 音频、杜比视界下载、批量解析，可扫码登录，常驻托盘。项目地址: https://gitcode.com/gh_mirror…

作者头像

李华

网站建设 2026/3/20 10:51:22

深度解析Eigen库：C++高性能线性代数计算的终极指南

深度解析Eigen库：C高性能线性代数计算的终极指南【免费下载链接】eigen-git-mirror THIS MIRROR IS DEPRECATED -- New url: https://gitlab.com/libeigen/eigen 项目地址: https://gitcode.com/gh_mirrors/ei/eigen-git-mirror Eigen高性能线性代数库作为现…

作者头像

李华

网站建设 2026/3/27 11:09:02

我的笔记：怎么用 MySQL 的 EXPLAIN 来分析 SQL

我是怎么理解 EXPLAIN 的基础使用方法我觉得最值得关注的几项访问类型 (type)实际使用的索引 (key)扫描行数 (rows)附加信息 (Extra)一个简单的例子我理解的几个优化思路查看是否走索引扫描行数是否合理注意 Extra 里是否有不良信息我总结几点个人经验结语我一直觉得 SQL 慢&am…

作者头像

李华

网站建设 2026/3/22 22:18:06

Bilidown：专业级B站视频下载解决方案的完整实践指南

Bilidown：专业级B站视频下载解决方案的完整实践指南【免费下载链接】bilidown 哔哩哔哩视频解析下载工具，支持 8K 视频、Hi-Res 音频、杜比视界下载、批量解析，可扫码登录，常驻托盘。项目地址: https://gitcode.com/gh_mirror…

作者头像

李华

网站建设 2026/3/24 2:05:43

AppSmith革命性实时协作：多用户同时编辑的高效解决方案

AppSmith革命性实时协作：多用户同时编辑的高效解决方案【免费下载链接】appsmith appsmithorg/appsmith: Appsmith 是一个开源的无代码开发平台，允许用户通过拖拽式界面构建企业级Web应用程序，无需编写任何后端代码，简化了软件开…

作者头像

李华

网站建设 2026/3/20 3:10:10

AG-UI智能应用开发框架：从理论到实践的完整指南

AG-UI智能应用开发框架：从理论到实践的完整指南【免费下载链接】ag-ui 项目地址: https://gitcode.com/gh_mirrors/agu/ag-ui 当传统架构遇见AI代理：开发者的真实困境在当前的AI应用开发浪潮中，开发者们面临着一个尴尬的现实&…

作者头像

李华