news 2026/4/7 10:36:40

Docker+vLLM内网离线部署Qwen3 流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Docker+vLLM内网离线部署Qwen3 流程

Docker + vLLM 内网离线部署 Qwen3-32B 完整教程

环境准备

Nvidia显卡驱动、CUDA、nvidia-container安装
参考:http:
Docker环境安装
参考:http:

注意:在进行VLLM容器化部署之前,需要确保已在服务器上安装了Docker 和
Nvidia显卡驱动、CUDA、nvidia-container。

一、部署流程概述

部署流程主要分为三个关键步骤:

  1. 准备vLLM镜像- 在联网环境下载并导入内网
  2. 获取模型文件- 从模型仓库下载Qwen3-32B模型
  3. 启动推理服务- 使用Docker运行vLLM服务

下面详细介绍每个步骤的具体操作。

二、详细操作步骤

1. 离线获取 vLLM 镜像

由于内网服务器无法直接访问Docker Hub,需要在有网络的机器上先拉取镜像,然后传输到内网服务器。

在可联网的机器上执行:

# 拉取官方vLLM镜像(大小约20GB,下载需要较长时间)docker pull vllm/vllm-openai# 将镜像打包保存为文件docker save -o vllm-openai-image.tar vllm/vllm-openai:latest

在内网服务器上执行:

# 进入保存镜像文件的目录cd/data# 从文件加载镜像到本地Dockerdocker load<vllm-openai-image.tar# 验证镜像是否加载成功(应该能看到vllm/vllm-openai镜像)docker images|grepvllm-openai

2. 下载 Qwen3-32B 模型文件

模型可以从以下几个平台下载(推荐使用国内源提升下载速度):

  • Hugging Face Hub(国内镜像):https://hf-mirror.com/
  • ModelScope 魔搭社区:https://www.modelscope.cn/models
  • GitCode:https://gitcode.net/

本文以魔搭社区为例,使用git下载:

# 确保已安装git-lfs(大文件支持)gitlfsinstall# 克隆模型仓库(模型大小约62GB,下载需要很长时间)gitclone https://www.modelscope.cn/Qwen/Qwen3-32B.git

下载完成后,将整个模型文件夹复制到内网服务器的/data/Qwen3-32B目录下。

3. 启动 vLLM 推理服务

使用以下命令启动服务容器,请根据实际情况调整参数:

docker run -d --privileged --gpus all\--restart unless-stopped\--networkhost\-v /data/Qwen3-32B:/app/model\--shm-size 32G\--name vllm-qwen3\vllm/vllm-openai:latest\--model /app/model\--served-model-name qwen3:32b
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/2 6:22:31

15、加密算法实现与应用

加密算法实现与应用 1. 引言 加密技术在信息安全领域扮演着至关重要的角色,它能够保护数据的机密性和完整性。本文将介绍几种常见的加密算法,包括凯撒密码、维吉尼亚密码、Base64编码解码、用户凭证验证等,并给出相应的实现代码和示例。 2. 凯撒密码(Caesar Cipher) 原…

作者头像 李华
网站建设 2026/4/3 14:46:06

67、系统内存与 STREAMS 数据结构深入解析

系统内存与 STREAMS 数据结构深入解析 1. 内核虚拟内存分配 在系统中,内核虚拟内存的分配是一个关键操作。在地址 0xc0003000 处有 2 页内核虚拟内存空闲,从 0xc001c000 开始有 2020 页空闲。当需要分配内核虚拟空间时(例如用于存放页表页),会调用 rmalloc() 例程…

作者头像 李华
网站建设 2026/3/30 8:56:51

基于微信小程序的乡镇中学教学管理系统的设计与实现论文案例

目 录摘 要 IAbstract II第一章 绪论 11.1 课题背景 11.2 课题意义 21.3 国内外研究现状 21.4 论文组织结构 3第二章 关键技术介绍 52.1 微信小程序开发 52.2 Java语言介绍 52.3 Vue.js框架简介 62.4 SpringBoot简介 72.5 MySQL数据库 7第三章 系统需求分析 83.1 可行性分析 83…

作者头像 李华
网站建设 2026/4/3 2:37:46

测试依赖注入方法:提升测试效率与可维护性的关键实践

一、在软件测试领域&#xff0c;依赖注入&#xff08;Dependency Injection&#xff0c;简称DI&#xff09;是一种设计模式&#xff0c;通过将对象的依赖关系从内部转移到外部&#xff0c;实现松耦合、高可测试性。本文将深入探讨依赖注入在测试中的应用&#xff0c;通过实际案…

作者头像 李华
网站建设 2026/3/14 13:53:22

智能地址解析终极指南:高效处理非标准化地址数据

智能地址解析终极指南&#xff1a;高效处理非标准化地址数据 【免费下载链接】address-parse &#x1f30f;对国内地址地区进行智能解析&#xff0c;提取关键数据&#xff0c;如有识别不准的地址请Issues 项目地址: https://gitcode.com/gh_mirrors/ad/address-parse 在…

作者头像 李华
网站建设 2026/3/21 17:50:23

了解Raft协议及其原理

一、什么是Raft协议Raft协议是一种分布式共识算法&#xff0c;常应用于分布式集群中&#xff0c;保障系统的高可用&#xff0c;避免单节点故障导致服务中断二、拆解Raft协议对于Raft协议可以从以下3个部分进行拆解1、 节点角色集群中的每个节点会在不同状态间进行切换&#xff…

作者头像 李华