news 2026/5/13 9:45:35

vllm启动Qwen/Qwen3.6-35B-A3B踩坑日记

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
vllm启动Qwen/Qwen3.6-35B-A3B踩坑日记

1)docker拉取镜像

docker pull nvidia/cuda:12.8.0-cudnn-devel-ubuntu22.04

记住是devel版本的,要不你就悲剧了。你也可以拉取cuda13系列的,都可以的,这里我使用cuda12.8

docker images

然后

docker run -it -p 8004:8004 --name cuda128 --gpus all -v /home:/app 你的镜像id /bin/bash

没docker基础的你就自己百度吧,我不写那么详细了。

2)uv

自己装个conda或者python3激活,最好python3.12

pip install uv

然后:

uv venv --python 3.12 source .venv/bin/activate uv pip install vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

注意:可能2026年5月的时候vllm 0.20.0可以直接安装支持,不需要nightly版本了。

uv pip install -U vllm --torch-backend=auto

uv是真慢啊,等着吧

uv安装完之后,最好重新安装一下torch

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-0.8B --port 8000 --tensor-parallel-size 1 --max-model-len 262144

如果执行这个运行语句,会报错:

ImportError: libcudart.so.13: cannot open shared object file: No such file or directory

这是因为Qwen3.5必须要CUDA 13以上的版本才能支持,所以

nvidia-smi看下自己的驱动最高支持到什么版本。

这个地方必须是13开头的,

然后你再

docker pull nvidia/cuda:13.2.0-cudnn-devel-ubuntu22.04

这样才行的!

然后:

uv venv source .venv/bin/activate uv pip install -U vllm --torch-backend=auto

就可以了:

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.5-35B-A3B --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3

再然后:

from openai import OpenAI # Modify OpenAI's API key and API base to use vLLM's API server. openai_api_key = "EMPTY" openai_api_base = "http://localhost:8000/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) completion = client.completions.create( model="Qwen/Qwen3.5-35B-A3B", prompt="San Francisco is a", ) print("Completion result:", completion)

就可以了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 9:44:45

Hive核心知识点和面试高频考点

Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Tez任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 一、核心组件 1. 用户接口(User Interfaces) CLI:命令…

作者头像 李华
网站建设 2026/5/13 9:44:22

VMware macOS虚拟机解锁实用指南:Unlocker 3.0深度解析与完整教程

VMware macOS虚拟机解锁实用指南:Unlocker 3.0深度解析与完整教程 【免费下载链接】unlocker VMware Workstation macOS 项目地址: https://gitcode.com/gh_mirrors/unloc/unlocker Unlocker 3.0是一款专为VMware Workstation和Player设计的开源跨平台解锁工…

作者头像 李华
网站建设 2026/5/13 9:43:48

分类记单词:哺乳动物

分类记单词:哺乳动物快来记单词,这里有好多哺乳动物哦一、宠物、家畜 pet 宠物cat 猫tom 公猫;汤姆dog 狗pup 小狗bitch 母狗;泼妇pig 猪sow 母猪;播种boar 未阉的公猪;野猪piglet 小猪livestock 牲口cattl…

作者头像 李华
网站建设 2026/5/13 9:41:16

【递归算法】黄金矿工

文章摘要: 本文介绍了LeetCode 1219题"黄金矿工"的解题思路。题目要求在给定的mn网格中,按照特定规则开采黄金,寻找收益最大的路径。文章详细解析了题目要求,通过示例展示了决策过程,并提出了基于深度优先搜…

作者头像 李华
网站建设 2026/5/13 9:39:07

内部类全解:成员、局部、静态、匿名

做Java开发的同学,肯定都见过内部类——不管是项目里的工具类、回调逻辑,还是面试题里的高频考点,内部类都无处不在。但很多人只停留在“会用”的层面,分不清四种内部类的区别、不知道什么时候该用哪种,甚至踩了很多隐…

作者头像 李华