ELANA：轻量级大模型性能分析工具，让你秒懂能效与延迟优化-洪萨配资

ELANA是由得克萨斯大学奥斯汀分校开发的轻量级LLM能效与延迟分析工具。支持多GPU与边缘设备，兼容Hugging Face所有模型，可分析模型大小、缓存占用、预填充延迟(TTFT)、生成延迟(TPOT)、端到端延迟(TTLT)及能耗数据。提供细粒度内核级分析，支持Perfetto可视化。相比通用工具，ELANA无需修改代码，输出更精细，专注于LLM标准化推理场景。实验已在A6000云GPU及Jetson边缘设备上验证，覆盖Llama-3、Qwen-2.5等主流模型。

关键词：大型语言模型 (LLM)、能效分析、延迟分析、性能评测工具、缓存分析、模型部署

大型语言模型（LLM）在各类硬件平台部署时，延迟与能耗是核心约束，而现有评测工具缺乏统一、轻量化的 LLM 专用框架。为此，美国得克萨斯大学奥斯汀分校团队开源了轻量型学术友好型评测工具 ELANA，用于 LLM 的能效与延迟分析。

ELANA支持多 GPU 与边缘 GPU 平台，兼容 Hugging Face 所有公开模型及 API，可轻松适配压缩或低比特模型。

其核心功能包括：

评测模型大小、KV/SSM 缓存大小，精准测量预填充延迟（TTFT）、生成延迟（TPOT）、端到端延迟（TTLT）三类关键延迟指标
每令牌、每提示、每请求的能耗数据
提供细粒度内核级分析（支持 Perfetto 可视化，Perfetto 是一款 Google 开发的开源系统级性能分析工具）。

图 1b：Perfetto 工具上的细粒度核级分析结果示例

相较于通用工具 Zeus，ELANA 无需修改代码，输出更精细，专注于 LLM 标准化推理场景。实验在 A6000 云 GPU 及 Jetson 系列边缘设备上验证了其有效性，覆盖 Llama-3、Qwen-2.5 等主流模型。该工具为 LLM 研究与部署提供了统一基准，助力开发者定位性能瓶颈，推动高效 LLM 的研发与落地。

unsetunset本文目录unsetunset

本文目录
一、引言
二、主要功能与分析结果

2.1 Hugging Face 接口
2.2 模型大小分析
2.3 延迟分析
2.4 能耗分析
2.5 细粒度内核级分析

三、安装和使用

3.1 环境搭建与安装
3.2 核心功能使用
3.3 补充说明

四、结论
参考文献

unsetunset一、引言unsetunset

如今，众多新兴应用均由大型语言模型（LLMs）提供支持。然而，部署参数规模达数十亿（例如 1000 亿）的模型时，在满足所需的推理延迟、内存占用和能耗成本方面面临着巨大挑战。

已有大量研究致力于探索量化[Xiao et al., 2023, Lin et al., 2024a,b, Chiang et al., 2025a]和压缩技术[Wang et al., 2025, Lin et al., 2025, Chiang et al., 2025b]，以降低模型部署时的推理延迟和模型大小。但这些研究方向主要侧重于算法设计，在评估过程中却忽略了能耗问题。此外，现有的分析基准测试与结果在很大程度上依赖于研究人员各自开发的工具，目前仍缺乏一个统一且公平的分析框架。

近期已有研究关注机器学习系统的能耗特征，包括跨云服务器与边缘设备，对训练和推理过程中的能耗进行测量[You et al., 2023, Tschand et al., 2025]、基准测试[Chung et al., 2025, Samsi et al., 2023, Krupp et al., 2025]及优化[You et al., 2023, Chung et al., 2024]。

其中，Zeus 工具[You et al., 2023]是一款通用的 GPU 能耗/时间分析器，可用于分析任意 Python 代码块。它还包含一个命令行界面（CLI），能够报告监控进程运行期间 GPU 消耗的总能耗。

尽管如此，目前仍缺少一款轻量级的命令行分析器——该分析器需专为标准化 LLM 推理场景设计，且能为机器学习开发者提供细粒度延迟分析、能耗测量与核级（kernel-level）分析功能的组合。

ELANA是一款轻量级、适合学术研究的分析工具，用于在多GPU和边缘GPU平台上分析大型语言模型的模型大小、预填充延迟（TTFT）、生成延迟（TPOT）和端到端延迟（TTLT）。它提供简单的命令行界面和可选的能耗日志记录功能，非常适合高效大型语言模型的研究工作。

为填补这一空白，我们发布了 ELANA——一款用于 LLM 基准测试的精简分析框架。ELANA 提供了对学术研究友好的界面，可用于测量评估 LLM 性能的关键指标：

包括模型大小、键值缓存（KV 缓存）占用空间、预填充延迟（首 token 生成时间，Time-to-First-Token, TTFT）、生成延迟（每输出 token 时间，Time-per-Output-Token, TPOT），
跨多 GPU 和边缘 GPU 设备的请求端到端推理延迟（末 token 生成时间，Time-to-Last-Token, TTLT）。
我们的工具还具备能耗分析功能，可测量“每 token 焦耳数（J/Token）”“每提示词焦耳数（J/Prompt）”和“每请求焦耳数（J/Request）”等指标。
该工具支持 Hugging Face 平台上所有可用模型，并提供极简的命令行界面。
此外，ELANA 能与 Hugging Face API 无缝集成，且可轻松扩展以处理压缩模型或低比特精度模型，使其成为高效 LLM 研究与原型开发的实用解决方案。

表 1：我们的 ELANA 与 Zeus 分析框架[You et al., 2023]的对比

unsetunset二、主要功能与分析结果unsetunset

本节将介绍 ELANA 的主要功能及其分析结果。为演示 ELANA 的使用方法，我们在A6000 GPU（云端）以及Jetson AGX Thor 128GB和Orin Nano 8GB设备（边缘端）上，对多个模型进行了分析，包括Llama-3.1-8B[Meta, 2024]、Qwen-2.5-7B[Hui et al., 2024]和混合模型 Nemotron-H-8B[Blakeman et al., 2025]。对于 Orin Nano，我们分析的是小型语言模型，如 Llama-3.2-1B、Qwen2.5-1.5B。

2.1 Hugging Face 接口

ELANA 设计为使用主流的 Hugging Face 接口来构建待分析的模型，如下列代码块所示。因此，ELANA 能够支持并分析 Hugging Face 平台上发布的模型。

def _build_model_and_tokenizer(self): tokenizer = AutoTokenizer.from_pretrained("model_hf_repo") # 从Hugging Face仓库加载分词器 model = AutoModelForCausalLM.from_pretrained("model_hf_repo") # 从Hugging Face仓库加载因果语言模型

这一设计选择使得研究人员只需修改少量代码，即可将 ELANA 与新兴的模型架构及新开发的压缩算法集成。例如：

def _build_model_and_tokenizer(self): tokenizer = MyLocalTokenizer.from_pretrained("local_model_path") # 本地分词器（自定义本地分词器） model = MyLocalModel.from_pretrained("local_model_path") # 本地模型（自定义本地模型）

总而言之，我们旨在为未来的研究人员提供一款简单且统一的工具，用于评估其新架构和新算法，无需自行开发分析工具。

2.2 模型大小分析

我们采用大多数存储厂商所使用的国际单位制（SI，十进制，base-10）定义作为分析和报告模型大小与缓存大小的默认单位（即字节）。ELANA 还提供二进制单位（GiB，其中字节）作为可选的内存报告单位，该单位在 Linux 及其他操作系统中较为常用。

参数与缓冲区大小：ELANA 会报告模型的总参数大小（包括可训练权重和不可训练权重），以帮助用户了解所部署模型的内存占用情况。除参数外，ELANA 还会分析辅助缓冲区（如位置嵌入向量、量化层等）的大小。这一功能使从业者能够比较不同的压缩算法，并识别对内存占用贡献最大的组件——这在内存受限的边缘设备上部署 LLM 时尤为重要。

键值缓存（KV 缓存）与状态空间模型缓存（SSM 缓存）大小：在自回归生成过程中，LLM 会维护中间状态，例如 Transformer 模型中的键值缓存（KV 缓存）或状态空间模型（SSMs）中的递归状态缓存。这些缓存通常是内存消耗的主要来源，尤其是在长序列生成或多请求（即大批次大小）服务场景下。ELANA 能够估算基于注意力机制的模型的 KV 缓存大小，以及基于状态空间模型（SSM）架构的状态缓存大小，从而帮助用户评估不同服务负载下的内存需求。

表 2 ：模型与缓存大小分析结果。展示了我们对 Llama-3.1-8B、Qwen-2.5-7B 和 Nemotron-H-8B 在不同负载下的参数大小与 KV 缓存大小的分析结果，所有结果均以 GB 为单位

2.3 延迟分析

首 token 生成时间（TTFT，预填充阶段）：TTFT 用于测量预填充阶段（即处理输入提示词的阶段，模型在生成第一个输出 token 之前会先处理整个输入提示词）的延迟。该指标反映了初始前向传播的延迟，在聊天助手、长上下文摘要等交互式应用中尤为重要。ELANA通过隔离预填充阶段，并报告多次运行的原始延迟与平均统计数据，实现对 TTFT 的精准测量。我们使用随机生成的输入提示词对模型进行预填充，并分析 TTFT 的延迟。由于实际应用中输入提示词的长度各不相同，因此在模型推理的预填充阶段，我们不缓存 CUDA 图（CUDA graphs，一种用于优化重复计算任务的 CUDA 特性，可减少内核启动开销）。

每输出 token 时间（TPOT，生成阶段延迟）：TPOT 用于衡量自回归生成（即解码）过程中生成每个 token 的平均解码延迟。由于解码阶段本质上是串行的，因此 TPOT 是评估模型在连续 token 生成场景下效率的关键指标。ELANA通过记录 token 间的生成间隔，并在整个输出序列上取平均值来计算 TPOT。在分析 TPOT 之前，我们会使用用户指定提示词长度的随机生成输入来预填充 KV 缓存。为最大化生成过程的吞吐量，我们参考 TensorRT-LLM[NVIDIA, 2023]和 SGLang[Zheng et al., 2024]的做法，对生成阶段的 CUDA 图进行缓存。

末 token 生成时间（TTLT，端到端延迟）：TTLT 用于测量推理过程的完整端到端延迟，即从接收输入提示词到生成最后一个输出 token 的总时间。该指标结合了预填充延迟与解码延迟，能够全面反映处理请求的运行时性能。ELANA 在报告 TTLT 的同时，还会将其分解为 TTFT 和 TPOT 两部分，使从业者能够分析性能瓶颈，并理解不同优化手段对整体推理体验的影响。我们使用随机生成的输入提示词分析 TTLT，并测量不同提示词长度和生成长度下，处理一批请求的端到端延迟。

表 3：A6000 GPU 上的延迟与能耗分析结果。我们在 A6000 GPU 上对各类负载进行了分析，展示了平均能耗（单位：焦耳，J），其中，除“每请求焦耳数（J/Req.）”为 20 次运行的平均值外，其余指标均为 100 次运行的平均值。预填充 token 数与生成 token 数统一表示为（其中为预填充 token 数，为生成 token 数）。延迟与能耗的单位分别为毫秒（ms）和焦耳（J）

表 3 报告了在 A6000 GPU 上所有负载的平均延迟（单位：毫秒，ms），其中除 TTLT 为 20 次运行的平均值外，其余指标均为 100 次运行的平均值。我们还在 Jetson AGX Thor（128 GB 统一内存）和 Orin Nano（8 GB 统一内存）这两款边缘 GPU 上对 ELANA 进行了测试，不同负载在 Jetson 系列 GPU 上的分析结果如表 4 所示。

表 4：Jetson 系列设备上的延迟与能耗分析结果。我们在 Jetson AGX Thor 128G 和 Orin Nano 8G 设备上对各类负载进行了分析。预填充 token 数与生成 token 数统一表示为（其中为预填充 token 数，为生成 token 数）。延迟与能耗的单位分别为毫秒（ms）和焦耳（J）

表 4 还报告了实验模型在 Jetson AGX Thor 和 Orin Nano 设备上的能耗成本。

2.4 能耗分析

在能耗分析方面，我们通过 NVIDIA 的 NVML 接口（NVIDIA Management Library，NVIDIA 管理库，用于监控和管理 NVIDIA GPU 设备），使用 pynvml 库（NVML 的 Python 绑定库）查询目标 GPU 的瞬时功率。

在 Jetson 设备上，我们通过 jetson-stats 工具包中的 jtop 工具（一款用于 Jetson 系列设备的系统监控工具，可读取板载功率传感器数据）获取系统级芯片（SoC）上 GPU 的功率。

我们每 0.1 秒对功率使用情况进行一次采样，并记录所有测量数据。在延迟分析过程中，会有一个独立进程并行运行以收集功率数据，我们会计算对应测量窗口内的平均功率。将该平均功率与测得的延迟相结合，即可得到能耗数据。

我们针对 TTFT 报告“每提示词焦耳数（J/Prompt）”
针对 TPOT 报告“每 token 焦耳数（J/Token）”
针对 TTLT 报告“每请求焦耳数（J/Request）”

在多 GPU 场景下，我们会将所有参与计算的 GPU 的平均功率求和，以计算最终的能耗指标。

2.5 细粒度内核级分析

PyTorch 分析器（PyTorch Profiler）：为支持细粒度分析，ELANA 可选择性集成 PyTorch 分析器 ∗ 和整体轨迹分析（HTA）†，以捕获低层级执行轨迹、算子运行时间和核级统计数据。

PyTorch 分析器——全新且改进的性能工具：https://docs.pytorch.org/docs/stable/profiler.html
整体轨迹分析（Holistic Trace Analysis）：https://github.com/facebookresearch/HolisticTraceAnalysis

细粒度内核级分析的功能使用户能够诊断性能瓶颈、分析 GPU 利用率，并检查核融合、量化或模型压缩技术的影响。分析结果可导出至 Perfetto‡等工具进行可视化，以便进一步分析——这提供了超越高层级延迟指标的、更详细的运行时行为视图。

Perfetto——系统分析、应用追踪与轨迹分析工具：https://ui.perfetto.dev/

图 1a：Perfetto 工具上的细粒度核级分析结果示例

图 1b：Perfetto 工具上的细粒度核级分析结果示例

unsetunset三、安装和使用unsetunset

3.1 环境搭建与安装

# 1. 克隆仓库git clone https://github.com/hychiang-git/Elana.gitcd Elana# 2. 创建conda环境（可选）conda create -n elana-env python==3.12 # 创建环境并指定Python版本conda activate elana-env # 激活环境# 3. 若用virtualenv（替代conda）# python3 -m venv elana-env # 创建虚拟环境# source elana-env/bin/activate # 激活环境（Linux/macOS）# pip install --upgrade pip # 升级pip# 4. 安装Elana及依赖pip install .

3.2 核心功能使用

# 1. 分析预填充延迟（TTFT）+ 能耗elana meta-llama/Llama-3.2-3B-Instruct --ttft --energy# 2. 分析生成延迟（TPOT）+ 能耗 + 缓存图elana meta-llama/Llama-3.2-3B-Instruct --tpot --energy --cache_graph# 3. 分析端到端延迟（TTLT）+ 能耗 + 缓存图elana meta-llama/Llama-3.2-3B-Instruct --ttlt --energy --cache_graph# 4. 分析模型大小elana meta-llama/Llama-3.2-3B-Instruct --size# 5. 带Torch Profiler分析（生成trace文件，用于Perfetto可视化）elana meta-llama/Llama-3.2-3B-Instruct --tpot --energy --cache_graph --torch_profile# 6. 查看所有用法elana --help

3.3 补充说明

Perfetto可视化：运行带--torch_profile的命令后，trace文件会生成在torch_profile/{model_name}/目录下，可上传至 Perfetto：https://ui.perfetto.dev/ 进一步查看内核级详情。
模型替换：命令中的模型可替换为任意HuggingFaceAutoModelForCausalLM类型模型。

unsetunset四、结论unsetunset

ELANA 是一个轻量级、易用且可扩展的框架，用于评估跨云端和边缘 GPU 的大型语言模型（LLMs）效率。

通过提供对模型大小、键值缓存（KV 缓存）内存、延迟特征以及可选能耗的全面分析，ELANA 能使从业者和研究人员都更深入地了解现代 LLMs 的性能瓶颈。其与 Hugging Face API 的兼容性，以及对新开发模型或压缩算法的适配性，进一步使 ELANA 成为推动高效模型设计与部署研究的实用工具。

我们希望 ELANA 能成为可复现基准测试的基础，推动不同模型与系统间的公平比较，并加速下一代资源高效型 LLMs 的开发。

unsetunset参考文献unsetunset

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

ELANA：轻量级大模型性能分析工具，让你秒懂能效与延迟优化

unsetunset本文目录unsetunset

unsetunset一、引言unsetunset

unsetunset二、主要功能与分析结果unsetunset

2.1 Hugging Face 接口

2.2 模型大小分析

2.3 延迟分析

2.4 能耗分析

2.5 细粒度内核级分析

unsetunset三、安装和使用unsetunset

3.1 环境搭建与安装

3.2 核心功能使用

3.3 补充说明

unsetunset四、结论unsetunset

unsetunset参考文献unsetunset

最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

GA-SVM多变量时序预测模型：基于遗传算法优化SVM参数的Excel数据集运行源程序

25、配置 FreeBSD 拨号上网连接

29、X Window系统配置与启动指南

32、FreeBSD窗口管理器与桌面环境及办公软件全解析

34、FreeBSD 多媒体与 Web 服务器使用指南

鸿蒙三方库—harmony-utils使用

unsetunset本文目录unsetunset

unsetunset一、引言unsetunset

unsetunset二、主要功能与分析结果unsetunset

2.1 Hugging Face 接口

2.2 模型大小分析

2.3 延迟分析

2.4 能耗分析

2.5 细粒度内核级分析

unsetunset三、安装和使用unsetunset

3.1 环境搭建与安装

3.2 核心功能使用

3.3 补充说明

unsetunset四、结论unsetunset

unsetunset参考文献unsetunset

​最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

GA-SVM多变量时序预测模型：基于遗传算法优化SVM参数的Excel数据集运行源程序

25、配置 FreeBSD 拨号上网连接

29、X Window系统配置与启动指南

32、FreeBSD窗口管理器与桌面环境及办公软件全解析

34、FreeBSD 多媒体与 Web 服务器使用指南

鸿蒙三方库—harmony-utils使用

最后