使用VLLM推理框架AI大模型部署-洪萨配资

1.说明

python环境：最好是3.10-3.12之间

搭建一个uv虚拟环境，避免各环境冲突。

uv安装

#git https://github.com/astral-sh/uv #Linux 安装 curl -LsSf https://astral.sh/uv/install.sh | sh #windows 安装 powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" # 使用 python pip安装 pip install uv

2.魔塔相关命令

# python 环境安装魔搭 uv pip install modelscope -i https://mirrors.aliyun.com/pypi/simple/ #魔搭模型下载 modelscope download --model Qwen/Qwen3-32B-AWQ --local_dir /mnt/e/model/qwen3-32b-awq modelscope download --model Qwen/Qwen3-Reranker-8B --local_dir /mnt/e/model/qwen3-reranker-8b modelscope download --model Qwen/Qwen3-Embedding-8B --local_dir /mnt/e/model/qwen3-embedding-8b modelscope download --model Qwen/Qwen3-30B-A3B-Thinking-2507 --local_dir ./Qwen3-30B-A3B-Thinking-2507

3.大模型相关命令

（1）启动模型

#如果在62 服务器上启动，需进入到 模型环境中去 source /data/model/.venv/bin/activate #启动30b模型 nohup vllm serve /data/model/Qwen3-30B-A3B-Thinking-2507 --tensor-parallel-size 2 --max-model-len 131072 --enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & nohup vllm serve /data/model/Qwen3-30B-A3B-Instruct-2507 --tensor-parallel-size 2 --max-model-len 131072 --enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & nohup vllm serve /data/model/Qwen3-30B-A3B --tensor-parallel-size 2 --max-model-len 40960--enable-auto-tool-choice --tool-call-parser hermes --gpu-memory-utilization 0.9 --enable-chunked-prefill --quantization fp8 --max-num-seqs 4 > vllm.log 2>&1 & #启动32量化版本（勿动） nohup vllm serve /data/model/Qwen3-32B-AWQ --tensor-parallel-size 2 --enable-auto-tool-choice --tool-call-parser hermes --max-model-len 130000 --gpu-memory-utilization 0.85 --max-num-seqs 100 > vllm.log 2>&1 & #启动向量模型 vllm serve /data/model/Qwen3-Embedding-8B --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-num-seqs 100 #启动重排模型 #启动视觉模型 nohup vllm serve /data/model/Qwen2.5-VL-7B-Instruct --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-num-seqs 128 > vllm.log 2>&1 & #启动minerU 识别模型 nohup vllm serve /data/model/MinerU2.5-2509-1.2B --tensor-parallel-size 2 --gpu-memory-utilization 0.85 --max-model-len 4096 --max-num-seqs 4 > mineru.log 2>&1 & # 启动32b模型(暂时启动失败了) vllm serve /mnt/e/model/qwen3-32b --tensor-parallel-size 2 --enable-auto-tool-choice --tool-call-parser hermes --max-model-len 12000 --quantization fp8

（2）vllm相关命令

#vllm 安装命令 export UV_HTTP_TIMEOUT=300 export UV_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple uv pip install torch==2.8 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu128 -i https://mirrors.aliyun.com/pypi/simple/ uv pip install vllm -i https://mirrors.aliyun.com/pypi/simple/

（3）调整模型上下文长度

#调整上下文长度为128k，YaRN 配置 # 找到模型目录下的config.json文件，修改如下命令 "max_position_embeddings": 131072, "rope_scaling": { "type": "yarn", "factor": 4.0, "original_max_position_embeddings": 32768, "finetuned": true },

4.MinerU相关命令

（1）启动命令

#启动外部模型 mineru -p test1.pdf -o ./outfile1 -b vlm-http-client -u http://localhost:8000 # 帮助文档 mineru --help Usage: mineru [OPTIONS] Options: -v, --version 显示版本并退出 -p, --path PATH 输入文件路径或目录（必填） -o, --output PATH 输出目录（必填） -m, --method [auto|txt|ocr] 解析方法：auto（默认）、txt、ocr（仅用于 pipeline 后端） -b, --backend [pipeline|vlm-transformers|vlm-vllm-engine|vlm-lmdeploy-engine|vlm-http-client] 解析后端（默认为 pipeline） -l, --lang [ch|ch_server|ch_lite|en|korean|japan|chinese_cht|ta|te|ka|th|el|latin|arabic|east_slavic|cyrillic|devanagari] 指定文档语言（可提升 OCR 准确率，仅用于 pipeline 后端） -u, --url TEXT 当使用 http-client 时，需指定服务地址 -s, --start INTEGER 开始解析的页码（从 0 开始） -e, --end INTEGER 结束解析的页码（从 0 开始） -f, --formula BOOLEAN 是否启用公式解析（默认开启） -t, --table BOOLEAN 是否启用表格解析（默认开启） -d, --device TEXT 推理设备（如 cpu/cuda/cuda:0/npu/mps，仅 pipeline 后端） --vram INTEGER 单进程最大 GPU 显存占用(GB)（仅 pipeline 后端） --source [huggingface|modelscope|local] 模型来源，默认 huggingface --help 显示帮助信息

（2）安装命令

#使用uv安装MinerU pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple pip install uv -i https://mirrors.aliyun.com/pypi/simple uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple

5.Linux相关命令

# 查看英伟达GPU nvidia-smi # 杀掉占用的GPU pkill -f VLLM

6.PaddleOCR命令

#1、paddlepaddle 安装 #官网地址：https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/windows-pip.html pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple some-package #2、验证paddlepaddle是否按照成功 python import paddle #出现PaddlePaddle is installed successfully!说明安装成功 paddle.utils.run_check() #3、安装PaddleOCR pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

使用VLLM推理框架AI大模型部署

1.说明

2.魔塔相关命令

3.大模型相关命令

4.MinerU相关命令

基于 Spring Boot + JODConverter 实现文档在线转换为 PDF 功能

Modern Fortran扩展：从零搭建高效的VS Code开发环境

GLM-4-9B-Chat-1M：当AI学会“读万卷书“

Snap2HTML实战秘籍：一键生成硬盘目录交互式网页的终极攻略

《2024年CSDN年度技术趋势预测：开发者必须关注的十大方向》

鸿蒙远程投屏终极指南：HOScrcpy实现高效开发调试