news 2026/7/2 6:37:17

在资源受限的边缘设备/终端设备上部署模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
在资源受限的边缘设备/终端设备上部署模型

EDGE-LLM

EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning & Voting
DAC 2024 佐治亚理工

论文主要目标是加速 边缘设备上的 微调/训练过程,但其采用的层级统一压缩技术对推理有“附带受益”。模型参数被永久压缩(剪枝和量化),推理时计算量变小
1)LUC:Layer-wise Unified Compression(分层压缩):每层动态量化及每层剪枝。对每一层进行量化和剪枝实验,计算每层的 MSE敏感度。根据敏感度分配不同的 bit-width 和剪枝比例:

  • 高敏感层 → 高 bit-width / 低剪枝
  • 低敏感层 → 低 bit-width / 高剪枝

2)Adaptive Layer Tuning(自适应层调优):训练阶段将 LLM 分成几段 segment,每次微调只更新一段层,其他层冻结,对当前 segment 的输出直接接到最后一层。

3)Adaptive Voting(自适应投票):此模块作用于训练周期中如何利用多段 segment 的输出。

实验中没有使用真实硬件,用一个精细的硬件性能模拟器,在给定硬件参数的前提下,估算如果真的有这样一块‘边缘 Transformer 加速器’,算法会跑多快。

MobileLLM

MobileLLM: Optimizing sub-billion parameter language models for on-device use cases.
ICML 2024 Meta

在手机等终端设备上运行超小型(≤1B 参数)但尽量高质量的 LLM,并证明结构设计比数据量更重要。

  • Deep-and-Thin 架构:对于小模型,深度比宽度更重要。
    深 → 能增加“表达层次” ;宽 → 容易让小模型浪费参数
    小模型容量有限,只能优先学“多级抽象”而非“大维度高精度表示”
    125M 模型从 12 层 → 30~42 层性能显著提升
  • 核心技术:为了参数/权重利用最大化,使用嵌入共享方法和分组查询注意力;为了内存/延迟优化,在相邻块之间共享权重
    • 嵌入共享:输入嵌入层和输出全连接层占总参数的比例非常高,重用输入嵌入层的权重 作为输出全连接层的权重。在 30 层的 125M 模型中,通过共享减少了 1600 万参数(11.8%),而准确率仅下降 0.2 个点。通过将节省的参数重新分配来增加层数(深度)(从 30 层增加到 32 层),可以恢复并提高准确率(+0.4 点),同时总参数量依然减少 10M。
    • 分组查询注意力:在小模型里,GQA 不是为了加速,而是减少 KV 冗余,效果更好。在 125M 模型中,将 KV-头的数量从 16 减少到 4,准确率保持相当,同时模型规模减少了近 10%。

只要模型规模足够小(<1B),就“具备 on-device 可部署性”。没有特别说明其边缘设备情况。

EdgeMoE

EdgeMoE: Empowering sparse large language models on mobile devices
TMC 2025 北邮

在资源受限的终端设备上,高效运行具有巨大参数量的“专家混合模型”(MoE)架构的 LLMs。解决“MoE 的专家太多,内存放不下,加载太慢”这个问题。

  • MoE = 大量专家,但每次只激活很少的专家,推理计算量和内存使用只与“活跃专家数量”有关,而不是总参数量

MoE 模型中非专家权重(attention、embeddings、Norm 等)是每个 token 必用的 hot weights(计算多但占内存少)。专家权重占 70%+ 参数,但激活很少(cold),属于 infrequent weights。

解决:内存只放 hot weights;专家 weights 放外部存储,被激活时再动态加载(swap in)

为了解决“按需加载”带来的 I/O 延迟,EdgeMoE 提出了两种创新技术:

  • Expert-wise Bitwidth Adaptation(专家级位宽自适应):不同专家对精度的敏感度不同,对每位专家采用不同的量化位宽
    每个专家本质上就是一个独立的前馈网络
    将每个专家单独量化,测试模型精度下降程度
    一个混合精度模型:如部分专家 INT8,一部分 INT4,一部分 INT2
  • In-memory Expert Management and Preloading(内存内专家管理与预加载):不同层之间的专家激活存在统计相关性。构建统计模型,根据前一层的专家激活情况,估计当前层专家激活的概率。在推理过程中,查询该模型并提前将最有可能被激活的专家预加载到内存
    离线构建激活概率表,在线时利用字典进行预测加载

边缘模型中的实验平台

  • Jetson TX2 是 NVIDIA 推出的面向边缘计算与 AI 推理的嵌入式计算平台。它集成了 ARM 架构 CPU、支持 CUDA 的 NVIDIA GPU 以及板载内存,设计目标是在低功耗条件下提供较强的 GPU 推理能力。在实验中,Jetson TX2 通常作为独立的边缘推理节点使用。模型一般先在云端或PC上训练模型,然后将模型部署到 Jetson TX2 上进行推理。实验所需的延迟、内存占用和功耗等指标,均可在设备本地通过代码和系统工具进行测量与记录。

  • Raspberry Pi(树莓派) 是一种通用型单板计算机,功能上类似一台轻量级的 ARM 小型电脑。树莓派不提供面向通用计算或深度学习的 GPU 加速能力,适合通用计算和轻量级服务部署。

需要强调的是:
Jetson TX2 和 Raspberry Pi 属于嵌入式/边缘计算设备,而非数据中心意义上的服务器,它们更关注功耗、体积和能效。在实验中,通常将其作为真实的边缘计算平台,用于评估算法或系统在资源受限环境下的性能表现。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 2:27:10

5、本体论:概念、表示与应用解析

本体论:概念、表示与应用解析 1. 本体论的基本概念 在人工智能领域,“本体论(ontology)”主要有两种相关含义: - 一种是表示词汇,通常针对特定领域或主题; - 另一种是使用表示词汇描述特定领域的知识体系。 在这两种情况下,都存在一个与之关联的底层数据结构来表示…

作者头像 李华
网站建设 2026/7/2 2:27:45

基于Dify的AI智能体开发全流程详解

基于Dify的AI智能体开发全流程详解 在企业纷纷拥抱大模型的今天&#xff0c;一个现实问题摆在面前&#xff1a;如何让非算法背景的产品经理、业务人员也能参与AI应用构建&#xff1f;为什么很多团队投入大量人力开发的聊天机器人&#xff0c;上线后却因回答不准、逻辑混乱而被用…

作者头像 李华
网站建设 2026/7/2 2:28:20

基于NX12.0的C++异常安全设计实践

如何在NX12.0中安全使用C异常&#xff1f;—— 一场工业级插件开发的实战思考你有没有遇到过这样的场景&#xff1a;辛辛苦苦写完一个NX插件&#xff0c;功能逻辑清晰、代码结构优雅&#xff0c;结果一运行就崩溃&#xff0c;日志里只留下一句“unexpected exception in ufusr_…

作者头像 李华
网站建设 2026/7/2 0:41:47

Docker实战:镜像上传至华为云SWR并拉取私有镜像全流程详解

文章目录1. 实操概述2. 实操步骤2.1 获取华为云SWR访问凭证2.1.1 登录华为云2.1.2 进入容器镜像服务2.1.3 创建组织2.1.4 获取登录指令2.2 给本地镜像打标签2.3 登录华为云SWR2.4 推送镜像到华为云SWR2.5 在华为云SWR查看我的镜像2.6 从华为云SWR下载私有镜像2.6.1 获取华为云S…

作者头像 李华
网站建设 2026/7/2 0:41:28

使用LabVIEW远程操控信号发生器操作指南

手把手教你用LabVIEW远程控制信号发生器&#xff1a;从连接到实战的完整指南在实验室里&#xff0c;你是否也曾一遍遍手动调节信号发生器的频率、幅值&#xff0c;再切换波形、打开输出&#xff1f;重复操作不仅耗时&#xff0c;还容易出错。尤其当测试需要连续跑几十轮参数组合…

作者头像 李华
网站建设 2026/7/2 0:41:11

14、基于MDA的可执行UML组件开发方法

基于MDA的可执行UML组件开发方法 在当今的软件开发领域,服务导向的组件模型逐渐成为构建动态适应应用程序的关键。然而,构建这类组件面临着诸多挑战,尤其是服务导向框架的复杂性使得组件开发变得困难。本文将介绍一种基于MDA(Model-Driven Architecture)的方法,用于开发…

作者头像 李华