news 2026/5/5 3:59:23

【vLLM 学习】Save Sharded State

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【vLLM 学习】Save Sharded State

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →vllm.hyper.ai/

源码 examples/offline_inference/save_sharded_state.py

# SPDX-License-Identifier: Apache-2.0 """ 将每个工作进程(worker)的模型状态字典直接保存到检查点, 这为大型张量并行模型提供了快速加载路径 - 每个工作进程只需读取自己的分片, 而无需读取整个检查点。 示例用法: python save_sharded_state.py \ --model /path/to/load \ --quantization deepspeedfp \ --tensor-parallel-size 8 \ --output /path/to/save Then, the model can be loaded with llm = LLM( model="/path/to/save", load_format="sharded_state", quantization="deepspeedfp", tensor_parallel_size=8, ) """ import dataclasses import os import shutil from pathlib import Path from vllm import LLM, EngineArgs from vllm.utils import FlexibleArgumentParser parser = FlexibleArgumentParser() EngineArgs.add_cli_args(parser) parser.add_argument("--output", "-o", required=True, type=str, help="path to output checkpoint") parser.add_argument("--file-pattern", type=str, help="string pattern of saved filenames") parser.add_argument("--max-file-size", type=str, default=5 * 1024**3, help="max size (in bytes) of each safetensors file") def main(args): engine_args = EngineArgs.from_cli_args(args) if engine_args.enable_lora: raise ValueError("Saving with enable_lora=True is not supported!") model_path = engine_args.model if not Path(model_path).is_dir(): raise ValueError("model path must be a local directory") # Create LLM instance from arguments # 从参数创建 LLM 实例 llm = LLM(**dataclasses.asdict(engine_args)) # Prepare output directory # 准备输出目录 Path(args.output).mkdir(exist_ok=True) # Dump worker states to output directory # 转储工作进程状态到输出目录 model_executor = llm.llm_engine.model_executor model_executor.save_sharded_state(path=args.output, pattern=args.file_pattern, max_size=args.max_file_size) # Copy metadata files to output directory # 将元数据文件复制到输出目录 for file in os.listdir(model_path): if os.path.splitext(file)[1] not in (".bin", ".pt", ".safetensors"): if os.path.isdir(os.path.join(model_path, file)): shutil.copytree(os.path.join(model_path, file), os.path.join(args.output, file)) else: shutil.copy(os.path.join(model_path, file), args.output) if __name__ == "__main__": args = parser.parse_args() main(args)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 3:59:21

python之函数

一、对象,类型和变量的差异在 python 中,类型属于对象,对象有不同类型的区分,变量是没有类型的:a[1,2,3]a"Runoob" 以上代码中,[1,2,3] 是 List 类型,"Runoob" 是 String 类…

作者头像 李华
网站建设 2026/5/4 16:35:21

数学建模论文复现太耗时?试试这10款AI写作工具加速完成

数学建模论文的复现与排版通常面临时间紧张、工作量大的挑战,而AI工具的运用能大幅提升效率。评测显示,当前主流AI论文写作工具具备自动优化公式排版、生成代码框架及辅助模型复现等功能,尤其适合对论文质量和效率有双重需求的场景。这类工具…

作者头像 李华
网站建设 2026/5/2 14:02:20

提升数学建模论文复现速度的秘诀:10款AI辅助工具推荐

数学建模论文的复现与排版往往时间紧迫、任务繁重,但借助AI工具可以显著提升效率。通过对10款热门AI论文写作工具的评测,发现部分工具能自动优化公式排版、生成代码框架,甚至辅助模型复现,尤其适合需要快速完成高质量论文的场景。…

作者头像 李华
网站建设 2026/5/2 20:42:57

数学建模论文的高效复现方法有哪些?10款AI写作工具帮你轻松搞定

AI工具已成为数学建模论文写作的高效助手,评测显示部分智能写作平台能自动处理LaTeX公式排版、生成可执行代码框架并辅助模型复现,特别适合时间紧迫的论文场景。这些工具通过优化算法逻辑转换、增强可视化输出能力以及提升文档兼容性,显著降低…

作者头像 李华
网站建设 2026/4/27 6:11:18

10个AI写作神器,让你的数学建模论文复现效率翻倍

数学建模论文的复现与排版往往时间紧迫、任务繁重,但借助AI工具可以显著提升效率。通过对10款热门AI论文写作工具的评测,发现部分工具能自动优化公式排版、生成代码框架,甚至辅助模型复现,尤其适合需要快速完成高质量论文的场景。…

作者头像 李华
网站建设 2026/5/3 16:31:29

开发孕期健康管理工具,输入孕周,推送每周孕期注意事项,产检项目提醒,记录胎动次数,体重变化,推荐孕期适宜饮食和运动。

孕期健康管理工具 - 全栈开发实践 1. 实际应用场景描述 本工具面向孕妈妈、准爸爸及医疗机构,提供从孕早期到孕晚期的全程数字化健康管理解决方案。在真实场景中,孕期管理涉及多个维度: 典型使用场景: - 家庭场景:孕妈…

作者头像 李华