news 2026/3/27 22:43:00

使用VLLM推理框架AI大模型部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用VLLM推理框架AI大模型部署

1.说明

python环境:最好是3.10-3.12之间

搭建一个uv虚拟环境,避免各环境冲突。

uv安装

#git https://github.com/astral-sh/uv #Linux 安装 curl -LsSf https://astral.sh/uv/install.sh | sh #windows 安装 powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" # 使用 python pip安装 pip install uv

2.魔塔相关命令

# python 环境安装魔搭 uv pip install modelscope -i https://mirrors.aliyun.com/pypi/simple/ #魔搭模型下载 modelscope download --model Qwen/Qwen3-32B-AWQ --local_dir /mnt/e/model/qwen3-32b-awq modelscope download --model Qwen/Qwen3-Reranker-8B --local_dir /mnt/e/model/qwen3-reranker-8b modelscope download --model Qwen/Qwen3-Embedding-8B --local_dir /mnt/e/model/qwen3-embedding-8b modelscope download --model Qwen/Qwen3-30B-A3B-Thinking-2507 --local_dir ./Qwen3-30B-A3B-Thinking-2507

3.大模型相关命令

(1)启动模型

#如果在62 服务器上启动,需进入到 模型环境中去 source /data/model/.venv/bin/activate #启动30b模型 nohup vllm serve /data/model/Qwen3-30B-A3B-Thinking-2507 --tensor-parallel-size 2 --max-model-len 131072 --enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & nohup vllm serve /data/model/Qwen3-30B-A3B-Instruct-2507 --tensor-parallel-size 2 --max-model-len 131072 --enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & nohup vllm serve /data/model/Qwen3-30B-A3B --tensor-parallel-size 2 --max-model-len 40960--enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & #启动32量化版本(勿动) nohup vllm serve /data/model/Qwen3-32B-AWQ --tensor-parallel-size 2 --enable-auto-tool-choice --tool-call-parser hermes --max-model-len 130000 --gpu-memory-utilization 0.85 --max-num-seqs 100 > vllm.log 2>&1 & #启动向量模型 vllm serve /data/model/Qwen3-Embedding-8B --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-num-seqs 100 #启动重排模型 #启动视觉模型 nohup vllm serve /data/model/Qwen2.5-VL-7B-Instruct --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-num-seqs 128 > vllm.log 2>&1 & #启动minerU 识别模型 nohup vllm serve /data/model/MinerU2.5-2509-1.2B --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-model-len 4096 --max-num-seqs 4 > mineru.log 2>&1 & # 启动32b模型(暂时启动失败了) vllm serve /mnt/e/model/qwen3-32b --tensor-parallel-size 2 --enable-auto-tool-choice --tool-call-parser hermes --max-model-len 12000 --quantization fp8

(2)vllm相关命令

#vllm 安装命令 export UV_HTTP_TIMEOUT=300 export UV_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple uv pip install torch==2.8 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu128 -i https://mirrors.aliyun.com/pypi/simple/ uv pip install vllm -i https://mirrors.aliyun.com/pypi/simple/

(3)调整模型上下文长度

#调整上下文长度为128k,YaRN 配置 # 找到模型目录下的config.json文件,修改如下命令 "max_position_embeddings": 131072, "rope_scaling": { "type": "yarn", "factor": 4.0, "original_max_position_embeddings": 32768, "finetuned": true },

4.MinerU相关命令

(1)启动命令

#启动外部模型 mineru -p test1.pdf -o ./outfile1 -b vlm-http-client -u http://localhost:8000 # 帮助文档 mineru --help Usage: mineru [OPTIONS] Options: -v, --version 显示版本并退出 -p, --path PATH 输入文件路径或目录(必填) -o, --output PATH 输出目录(必填) -m, --method [auto|txt|ocr] 解析方法:auto(默认)、txt、ocr(仅用于 pipeline 后端) -b, --backend [pipeline|vlm-transformers|vlm-vllm-engine|vlm-lmdeploy-engine|vlm-http-client] 解析后端(默认为 pipeline) -l, --lang [ch|ch_server|ch_lite|en|korean|japan|chinese_cht|ta|te|ka|th|el|latin|arabic|east_slavic|cyrillic|devanagari] 指定文档语言(可提升 OCR 准确率,仅用于 pipeline 后端) -u, --url TEXT 当使用 http-client 时,需指定服务地址 -s, --start INTEGER 开始解析的页码(从 0 开始) -e, --end INTEGER 结束解析的页码(从 0 开始) -f, --formula BOOLEAN 是否启用公式解析(默认开启) -t, --table BOOLEAN 是否启用表格解析(默认开启) -d, --device TEXT 推理设备(如 cpu/cuda/cuda:0/npu/mps,仅 pipeline 后端) --vram INTEGER 单进程最大 GPU 显存占用(GB)(仅 pipeline 后端) --source [huggingface|modelscope|local] 模型来源,默认 huggingface --help 显示帮助信息

(2)安装命令

#使用uv安装MinerU pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple pip install uv -i https://mirrors.aliyun.com/pypi/simple uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple

5.Linux相关命令

# 查看英伟达GPU nvidia-smi # 杀掉占用的GPU pkill -f VLLM

6.PaddleOCR命令

#1、paddlepaddle 安装 #官网地址:https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/windows-pip.html pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple some-package #2、验证paddlepaddle是否按照成功 python import paddle #出现PaddlePaddle is installed successfully!说明安装成功 paddle.utils.run_check() #3、安装PaddleOCR pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/23 6:11:51

基于 Spring Boot + JODConverter 实现文档在线转换为 PDF 功能

基于 Spring Boot JODConverter 实现文档在线转换为 PDF 功能作者:Qwen(阿里云 Qwen) 适用场景:企业办公系统、OA、知识库、文档管理平台等需要将 Word/Excel/PPT 等格式转为 PDF 的 Web 应用 技术栈:Spring Boot 3.x…

作者头像 李华
网站建设 2026/3/21 17:44:35

Modern Fortran扩展:从零搭建高效的VS Code开发环境

Modern Fortran扩展:从零搭建高效的VS Code开发环境 【免费下载链接】vscode-fortran-support Fortran language support for Visual Studio Code 项目地址: https://gitcode.com/gh_mirrors/vs/vscode-fortran-support 想要在VS Code中享受现代化的Fortran开…

作者头像 李华
网站建设 2026/3/18 7:58:21

GLM-4-9B-Chat-1M:当AI学会“读万卷书“

GLM-4-9B-Chat-1M:当AI学会"读万卷书" 【免费下载链接】glm-4-9b-chat-1m 项目地址: https://ai.gitcode.com/zai-org/glm-4-9b-chat-1m 你是否曾经遇到过这样的情况:想要让AI帮你分析一份上百页的法律合同,却发现它只能处…

作者头像 李华
网站建设 2026/3/20 1:47:55

Snap2HTML实战秘籍:一键生成硬盘目录交互式网页的终极攻略

Snap2HTML实战秘籍:一键生成硬盘目录交互式网页的终极攻略 【免费下载链接】Snap2HTML Generates directory listings contained in a single, app-like HTML files 项目地址: https://gitcode.com/gh_mirrors/sn/Snap2HTML 还在为查找硬盘文件而烦恼吗&…

作者头像 李华
网站建设 2026/3/27 8:54:09

《2024年CSDN年度技术趋势预测:开发者必须关注的十大方向》

引言简要说明技术趋势预测的意义,结合CSDN平台开发者群体的关注点,提出本文的核心内容框架。技术趋势预测大纲人工智能与生成式AI的突破性进展大模型多模态能力普及(如GPT-5、Claude 3等迭代方向) AIGC工具在开发流程中的渗透&…

作者头像 李华
网站建设 2026/3/18 3:03:20

鸿蒙远程投屏终极指南:HOScrcpy实现高效开发调试

鸿蒙远程投屏终极指南:HOScrcpy实现高效开发调试 【免费下载链接】鸿蒙远程真机工具 该工具主要提供鸿蒙系统下基于视频流的投屏功能,帧率基本持平真机帧率,达到远程真机的效果。 项目地址: https://gitcode.com/OpenHarmonyToolkitsPlaza/…

作者头像 李华