1)docker拉取镜像
docker pull nvidia/cuda:12.8.0-cudnn-devel-ubuntu22.04
记住是devel版本的,要不你就悲剧了。你也可以拉取cuda13系列的,都可以的,这里我使用cuda12.8
docker images
然后
docker run -it -p 8004:8004 --name cuda128 --gpus all -v /home:/app 你的镜像id /bin/bash
没docker基础的你就自己百度吧,我不写那么详细了。
2)uv
自己装个conda或者python3激活,最好python3.12
pip install uv
然后:
uv venv --python 3.12 source .venv/bin/activate uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly注意:可能2026年5月的时候vllm 0.20.0可以直接安装支持,不需要nightly版本了。
uv pip install -U vllm --torch-backend=auto
uv是真慢啊,等着吧
uv安装完之后,最好重新安装一下torch
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144如果执行这个运行语句,会报错:
ImportError: libcudart.so.13: cannot open shared object file: No such file or directory
这是因为Qwen3.5必须要CUDA 13以上的版本才能支持,所以
nvidia-smi看下自己的驱动最高支持到什么版本。
这个地方必须是13开头的,
然后你再
docker pull nvidia/cuda:13.2.0-cudnn-devel-ubuntu22.04
这样才行的!
然后:
uv venv source .venv/bin/activate uv pip install -U vllm --torch-backend=auto就可以了:
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3
再然后:
from openai import OpenAI # Modify OpenAI's API key and API base to use vLLM's API server. openai_api_key = "EMPTY" openai_api_base = "http://localhost:8000/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) completion = client.completions.create( model="Qwen/Qwen3.5-35B-A3B", prompt="San Francisco is a", ) print("Completion result:", completion)就可以了。