Ubuntu系统部署Qwen3-0.6B全过程，新手照着做就行-洪萨配资

Ubuntu系统部署Qwen3-0.6B全过程，新手照着做就行

1. 前言：为什么选择在Ubuntu上部署Qwen3-0.6B？

如果你是AI大模型的初学者，想快速体验通义千问系列中最轻量级的开源模型之一——Qwen3-0.6B，那这篇文章就是为你准备的。我们不讲复杂的理论，只聚焦一件事：在Ubuntu系统上，从零开始完整部署这个模型，并能通过代码调用它生成内容。

Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B到235B不等。其中Qwen3-0.6B是最小的版本，非常适合个人开发者、学习者或资源有限的设备进行本地测试与开发。

本文将带你一步步完成：

环境准备
模型获取
服务启动
Python调用
常见问题解决

整个过程无需深度技术背景，只要你会基本的Linux命令操作，就能顺利完成。

2. 准备工作：检查你的系统环境

在开始之前，请确保你的Ubuntu系统满足以下最低要求：

2.1 硬件与系统要求

项目	推荐配置
操作系统	Ubuntu 20.04 / 22.04 / 24.04（本文以24.04为例）
内存	至少8GB（推荐16GB以上）
显卡	NVIDIA GPU（显存≥8GB）
CUDA支持	支持CUDA 12.x
Python版本	3.8 ~ 3.11

提示：虽然Qwen3-0.6B可以在CPU上运行，但推理速度会非常慢。强烈建议使用NVIDIA显卡+GPU加速。

2.2 安装必要依赖

打开终端，依次执行以下命令安装基础工具：

# 更新软件包列表 sudo apt update # 安装Python3及pip sudo apt install python3 python3-pip python3-venv -y # 安装NVIDIA驱动和CUDA（若未安装） # 可参考官方文档或使用nvidia-driver自动安装 sudo ubuntu-drivers autoinstall

安装完成后重启系统，然后验证CUDA是否可用：

nvidia-smi

如果能看到GPU信息，说明驱动已正确安装。

3. 获取Qwen3-0.6B模型文件

目前Qwen3系列模型可以通过Hugging Face或ModelScope魔搭社区下载。

3.1 使用ModelScope下载（推荐国内用户）

先安装modelscope库：

pip install modelscope

然后在Python中下载模型：

from modelscope.hub.snapshot_download import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B') print(model_dir)

该命令会自动将模型下载到本地缓存目录，通常路径为：

~/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B

记下这个路径，后续启动服务时需要用到。

4. 部署模型服务：使用vLLM启动API接口

vLLM 是一个高性能的大语言模型推理框架，支持PagedAttention、高吞吐、低延迟，并且兼容OpenAI API协议，非常适合用来部署像Qwen3这样的模型。

4.1 创建虚拟环境（推荐）

避免依赖冲突，建议创建独立的Python虚拟环境：

python3 -m venv qwen-env source qwen-env/bin/activate

4.2 安装vLLM

# 升级pip pip install --upgrade pip # 安装vLLM（支持CUDA 12.x） pip install vllm

注意：如果你的CUDA版本是11.8，请使用pip install vllm[cu118]

4.3 启动Qwen3-0.6B服务

运行以下命令启动模型服务：

VLLM_USE_V1=0 vllm serve ~/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B \ --port 8000 \ --max-model-len 6384 \ --gpu-memory-utilization 0.9

参数说明：

参数	作用
`VLLM_USE_V1=0`	强制使用旧版API结构，确保兼容性
`--port 8000`	指定HTTP服务端口为8000
`--max-model-len 6384`	设置最大上下文长度
`--gpu-memory-utilization 0.9`	控制GPU内存利用率，防止OOM

启动成功后，你会看到类似输出：

INFO: Started server process [PID] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000

此时模型服务已在本地http://localhost:8000运行。

5. 调用模型：使用LangChain进行交互

现在我们可以用Python代码来调用这个模型了。这里以LangChain为例，展示如何发送请求并接收响应。

5.1 安装LangChain相关库

pip install langchain-openai

5.2 编写调用代码

创建一个Python脚本call_qwen.py：

from langchain_openai import ChatOpenAI import os # 初始化Chat模型 chat_model = ChatOpenAI( model="Qwen-0.6B", temperature=0.5, base_url="http://localhost:8000/v1", # 注意：这里是本地服务地址 api_key="EMPTY", # vLLM不需要真实API密钥 extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, ) # 发起对话 response = chat_model.invoke("你是谁？") print(response.content)

关键参数解释：

base_url: 必须指向你本地运行的服务地址，格式为http://localhost:8000/v1
api_key="EMPTY": vLLM默认接受空密钥
extra_body: 可启用“思维链”模式，让模型展示推理过程
streaming=True: 开启流式输出，实时返回生成结果

运行脚本：

python call_qwen.py

你应该能看到模型返回类似这样的回答：

我是通义千问3，由阿里云研发的语言模型，可以回答问题、创作文字、表达观点等。

6. 常见问题与解决方案

6.1 启动时报错：`CUDA out of memory`

原因：显存不足，尤其是当显存小于8GB时容易发生。

解决方法：

添加参数降低显存占用：
```
--gpu-memory-utilization 0.7
```
或尝试量化版本（如AWQ、GPTQ），但需另行下载量化模型。

6.2 调用失败：`Model not found`

当你用curl或其他方式调用时，返回错误：

{"message":"The model `Qwen-0.6B` does not exist."}

原因：vLLM注册的模型名称是模型路径本身，而不是别名。

解决方法：查看实际注册的模型名：

curl http://localhost:8000/v1/models

返回结果可能显示模型名为：

{ "data": [ { "id": "/home/ubuntu/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B" } ] }

因此你在调用时必须使用完整路径作为model字段值：

chat_model = ChatOpenAI( model="/home/ubuntu/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B", ... )

6.3 报错：`Connection refused`或无法访问8000端口

可能原因：

服务未正常启动
防火墙阻止了端口
绑定IP不是0.0.0.0

解决方法：启动时显式指定host：

vllm serve ~/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B \ --host 0.0.0.0 \ --port 8000

然后可通过局域网其他设备访问：http://你的IP:8000

7. 扩展应用：你可以用它做什么？

部署完成后，Qwen3-0.6B虽然体积小，但仍具备不错的语言理解与生成能力。以下是几个实用场景：

7.1 构建本地智能助手

写周报、邮件草稿
解释技术概念
辅助编程问答

7.2 教学与实验平台

学习大模型推理机制
测试Prompt Engineering技巧
对比不同温度、top_p对输出的影响

7.3 轻量级客服机器人原型

结合Flask或FastAPI，可快速搭建一个基于Web的问答界面。

示例思路：

from flask import Flask, request, jsonify app = Flask(__name__) @app.route('/ask', methods=['POST']) def ask(): question = request.json.get('question') response = chat_model.invoke(question) return jsonify({'answer': response.content})

8. 总结

本文详细介绍了如何在Ubuntu系统上部署Qwen3-0.6B大语言模型，涵盖了从环境准备、模型下载、vLLM服务启动到LangChain调用的全流程。整个过程对新手友好，只要按照步骤操作，基本都能一次成功。

回顾关键步骤：

确认系统环境（Ubuntu + NVIDIA GPU + CUDA）
安装Python虚拟环境和vLLM
下载Qwen3-0.6B模型（推荐ModelScope）
使用vllm serve命令启动API服务
用LangChain调用模型并获取响应
解决常见问题（显存不足、模型找不到等）

Qwen3-0.6B作为一个轻量级但功能完整的开源模型，非常适合入门者练手、教学演示或嵌入小型项目中。随着你对它的熟悉，还可以进一步尝试：

更换prompt模板优化输出
接入Web前端实现可视化交互
尝试更强大的Qwen3-7B或Qwen3-72B版本

动手实践是最好的学习方式，现在就去试试吧！

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Ubuntu系统部署Qwen3-0.6B全过程，新手照着做就行