DeepSeek-R1-Distill-Qwen-1.5B部署教程：Docker环境下快速启动指南-洪萨配资

DeepSeek-R1-Distill-Qwen-1.5B部署教程：Docker环境下快速启动指南

1. 引言

随着大模型轻量化技术的不断突破，越来越多高性能的小参数模型开始在边缘设备和本地开发环境中崭露头角。DeepSeek-R1-Distill-Qwen-1.5B 正是其中的代表性成果——通过在80万条R1推理链数据上对 Qwen-1.5B 进行知识蒸馏，该模型以仅1.5B参数实现了接近7B级别模型的推理能力。

本教程将详细介绍如何在Docker 环境下快速部署 DeepSeek-R1-Distill-Qwen-1.5B 模型，并结合vLLM 推理引擎与Open WebUI 可视化界面，打造一个高效、易用、支持函数调用与Agent插件的本地对话应用系统。整个过程无需复杂配置，适合开发者、AI爱好者及嵌入式项目团队快速上手。

2. 技术选型与架构设计

2.1 为什么选择 DeepSeek-R1-Distill-Qwen-1.5B？

DeepSeek-R1-Distill-Qwen-1.5B 是一款经过深度优化的知识蒸馏模型，具备以下核心优势：

小体积高表现：FP16格式下整模仅3.0 GB，GGUF-Q4量化后可压缩至0.8 GB，可在6 GB显存设备上满速运行。
强推理能力：在 MATH 数据集上得分超过80，在 HumanEval 上达到50+，保留了原始R1推理链的85%逻辑结构。
多场景适配：支持 JSON 输出、函数调用、Agent 插件扩展，适用于代码生成、数学解题、智能问答等任务。
商用友好：采用 Apache 2.0 开源协议，允许自由用于商业项目。

特别适合资源受限但又需要较强逻辑推理能力的场景，如手机助手、树莓派、RK3588 嵌入式板卡等。

2.2 架构组成：vLLM + Open WebUI

我们采用如下技术栈构建完整的本地大模型服务：

组件	功能
vLLM	高性能推理引擎，支持 PagedAttention，显著提升吞吐量和响应速度
Open WebUI	图形化前端界面，提供类ChatGPT交互体验，支持历史会话管理
Docker	容器化部署，隔离环境依赖，实现一键迁移与复用

该组合具备以下优点：

启动快、资源利用率高
支持 REST API 访问，便于集成到其他系统
提供网页端交互，降低使用门槛

3. 部署步骤详解

3.1 环境准备

确保主机已安装以下基础组件：

# 检查 Docker 是否安装 docker --version # 检查 Docker Compose 是否可用 docker compose version

推荐配置：

操作系统：Ubuntu 20.04/22.04 或 macOS（Intel/Apple Silicon）
显存：≥6 GB GPU（NVIDIA）或 Apple M系列芯片
内存：≥8 GB RAM
存储空间：≥10 GB 可用空间

注意：若使用 Apple Silicon 芯片（如 M1/M2/M3），建议使用 llama.cpp + GGUF 量化版本获得最佳性能；NVIDIA 用户则优先使用 vLLM + FP16 版本。

3.2 创建项目目录结构

mkdir deepseek-qwen-1.5b-deploy cd deepseek-qwen-1.5b-deploy mkdir -p models config

我们将把模型文件挂载到./models目录中，配置文件放在./config。

3.3 编写 docker-compose.yml 文件

创建docker-compose.yml文件，内容如下：

version: '3.8' services: vllm: image: vllm/vllm-openai:latest container_name: vllm-server ports: - "8000:8000" environment: - CUDA_VISIBLE_DEVICES=0 volumes: - ./models:/models command: - "--model=/models/deepseek-r1-distill-qwen-1.5b" - "--dtype=auto" - "--gpu-memory-utilization=0.9" - "--max-model-len=4096" - "--enable-auto-tool-call" - "--tool-call-parser=hermes" deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] open-webui: image: ghcr.io/open-webui/open-webui:main container_name: open-webui ports: - "7860:8080" volumes: - ./config:/app/backend/data environment: - OLLAMA_BASE_URL=http://vllm:8000/v1 - OPENAI_API_KEY=dummy depends_on: - vllm restart: unless-stopped

说明：
vLLM服务监听8000端口，提供 OpenAI 兼容接口
Open WebUI通过反向代理连接 vLLM，暴露在7860端口
使用--enable-auto-tool-call启用函数调用功能，适配 Agent 场景

3.4 下载模型文件

前往 Hugging Face 或官方镜像站下载模型权重：

# 示例：从 HuggingFace 下载（需登录） huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --local-dir ./models/deepseek-r1-distill-qwen-1.5b

或手动下载 GGUF/Q4_K_M 格式用于 CPU 推理：

wget https://huggingface.co/second-state/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/resolve/main/DeepSeek-R1-Distill-Qwen-1.5B.Q4_K_M.gguf -O ./models/DeepSeek-R1-Distill-Qwen-1.5B.Q4_K_M.gguf

3.5 启动服务

执行以下命令启动容器组：

docker compose up -d

首次启动可能需要较长时间拉取镜像。可通过以下命令查看日志：

docker logs -f vllm-server docker logs -f open-webui

等待输出中出现"Uvicorn running on http://0.0.0.0:8000"和"App started"表示服务已就绪。

3.6 访问 WebUI 界面

打开浏览器访问：

http://localhost:7860

初始账号信息如下：

邮箱：kakajiang@kakajiang.com
密码：kakajiang

登录后即可开始与 DeepSeek-R1-Distill-Qwen-1.5B 进行对话。

提示：如果希望在 Jupyter Notebook 中调用 API，只需将请求地址由8888改为8000即可对接 vLLM 的 OpenAI 接口。

4. 性能优化与常见问题

4.1 性能调优建议

场景	推荐配置
NVIDIA GPU (RTX 3060+)	使用 FP16 模型 + vLLM，默认设置即可
Apple Silicon Mac	使用 GGUF 量化模型 + llama.cpp 后端
树莓派 / RK3588	使用 Q4_K_M GGUF 模型，关闭 GPU 加速
多用户并发	增加`--tensor-parallel-size`并使用更高端显卡

示例：在低显存设备上限制最大序列长度以节省内存

command: - "--model=/models/deepseek-r1-distill-qwen-1.5b" - "--max-model-len=2048" - "--gpu-memory-utilization=0.7"

4.2 常见问题解答（FAQ）

Q1：启动时报错`CUDA out of memory`

A：尝试降低gpu-memory-utilization至0.7，或改用 INT8 推理：

command: - "--quantization=awq" # 若有 AWQ 量化版本

Q2：Open WebUI 无法连接 vLLM

A：检查容器间网络连通性，确认depends_on已生效，且OLLAMA_BASE_URL指向http://vllm:8000/v1

Q3：如何启用函数调用（Function Calling）？

A：已在docker-compose.yml中启用--enable-auto-tool-call，并在提示词中加入 JSON schema 即可触发。

示例输入：

{ "name": "get_weather", "description": "获取指定城市的天气", "parameters": { "type": "object", "properties": { "city": {"type": "string"} }, "required": ["city"] } }

模型将自动识别并返回符合格式的 tool call 请求。

5. 应用场景与实测表现

5.1 实测性能数据

设备	推理速度（tokens/s）	启动时间	内存占用
RTX 3060 (12GB)	~200	<60s	~5.2 GB
Apple M1 Pro	~120 (GGUF-Q4)	<90s	~4.8 GB
RK3588 (8GB)	~60 (GGUF-Q4)	~150s	~3.5 GB
树莓派 5 + SSD	~18	>300s	~2.1 GB

在 RK3588 上完成 1k token 推理耗时约 16 秒，满足轻量级本地 Agent 需求。

5.2 典型应用场景

本地代码助手：支持 HumanEval 50+ 分数，能辅助编写 Python、JavaScript 等语言代码
数学解题工具：MATH 数据集得分超 80，适合教育类产品集成
嵌入式 AI 助手：可在无网络环境下运行，保障隐私安全
企业内部知识问答机器人：结合 RAG 可构建私有化智能客服

6. 总结

本文详细介绍了如何在 Docker 环境下部署DeepSeek-R1-Distill-Qwen-1.5B模型，结合vLLM与Open WebUI构建完整的本地大模型对话系统。该方案具有以下特点：

✅轻量高效：1.5B 参数实现接近7B模型的推理能力
✅低门槛部署：基于 Docker 一键启动，无需手动编译依赖
✅功能完整：支持函数调用、JSON 输出、Agent 扩展
✅商用免费：Apache 2.0 协议授权，可用于商业产品
✅跨平台兼容：支持 NVIDIA GPU、Apple Silicon、ARM 嵌入式设备

无论是个人开发者打造本地AI助手，还是企业构建边缘计算AI节点，DeepSeek-R1-Distill-Qwen-1.5B 都是一个极具性价比的选择。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek-R1-Distill-Qwen-1.5B部署教程：Docker环境下快速启动指南