news 2026/3/26 15:04:22

DeepSeek-R1-Distill-Qwen-1.5B部署教程:Jupyter Notebook集成方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek-R1-Distill-Qwen-1.5B部署教程:Jupyter Notebook集成方法

DeepSeek-R1-Distill-Qwen-1.5B部署教程:Jupyter Notebook集成方法

1. 引言

1.1 本地大模型部署的现实需求

随着大语言模型在各类应用场景中的广泛落地,越来越多开发者和企业开始关注轻量化、可本地化部署的高性能模型。尤其是在边缘设备、嵌入式系统或资源受限环境中,如何在有限算力下实现接近大模型的推理能力,成为工程实践中的关键挑战。

DeepSeek-R1-Distill-Qwen-1.5B 正是在这一背景下应运而生的“小钢炮”级模型。它通过知识蒸馏技术,将 DeepSeek R1 的强大推理链能力压缩至仅 1.5B 参数的 Qwen 架构中,在保持极低资源消耗的同时,实现了远超同体量模型的数学与代码理解能力。

1.2 为什么选择 DeepSeek-R1-Distill-Qwen-1.5B?

该模型具备以下核心优势:

  • 性能强劲:MATH 数据集得分 80+,HumanEval 超过 50%,推理链保留度达 85%。
  • 资源友好:FP16 模型仅需 3 GB 显存,GGUF-Q4 量化后低至 0.8 GB,可在树莓派、手机甚至 RK3588 等嵌入式平台运行。
  • 商用免费:采用 Apache 2.0 协议,支持商业用途,无版权风险。
  • 生态完善:已集成 vLLM、Ollama、Jan 等主流推理框架,支持一键启动。

本文将重点介绍如何基于vLLM + Open WebUI构建完整的对话服务,并进一步实现与Jupyter Notebook的无缝集成,打造一个集交互式编程、AI 辅助开发于一体的本地化智能开发环境。


2. 环境准备与基础部署

2.1 硬件与软件要求

项目推荐配置
GPU 显存≥6 GB(FP16),≥4 GB(GGUF 量化)
CPUx86_64 或 ARM64(如 M1/M2 Mac、RK3588)
内存≥8 GB RAM
操作系统Ubuntu 20.04+/macOS 12+/Windows WSL2
Python 版本≥3.10
CUDA12.1(NVIDIA 用户)

提示:若使用 Apple Silicon 芯片,推荐使用 llama.cpp + GGUF 量化版本以获得最佳性能。

2.2 安装依赖组件

首先创建独立虚拟环境并安装必要库:

python -m venv deepseek-env source deepseek-env/bin/activate # Linux/macOS # 或 deepseek-env\Scripts\activate (Windows) pip install --upgrade pip pip install vllm open-webui jupyter notebook

注意:vLLM目前不支持 Windows 原生环境,建议使用 WSL2 或 Linux 系统。

2.3 下载模型文件

官方提供多个格式版本,可根据硬件选择:

  • FP16(vLLM 推荐)bash huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --local-dir ./models/deepseek-r1-qwen-1.5b-fp16

  • GGUF-Q4(低显存设备推荐)bash wget https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/resolve/main/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf -O ./models/deepseek-r1-qwen-1.5b.Q4_K_M.gguf


3. 启动 vLLM 服务与 Open WebUI 集成

3.1 使用 vLLM 加载 FP16 模型

进入模型目录后启动 API 服务:

cd models/deepseek-r1-qwen-1.5b-fp16 python -m vllm.entrypoints.openai.api_server \ --model ./ \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --dtype half \ --max-model-len 4096

成功启动后,将在http://localhost:8000提供 OpenAI 兼容接口。

3.2 部署 Open WebUI 实现可视化对话界面

Open WebUI 是一个轻量级前端工具,支持连接本地 LLM API。

安装并配置 Open WebUI
docker pull ghcr.io/open-webui/open-webui:main docker run -d \ --name open-webui \ -p 7860:8080 \ -e OPENAI_API_BASE=http://host.docker.internal:8000/v1 \ -v open-webui-data:/app/backend/data \ --add-host=host.docker.internal:host-gateway \ --restart always \ ghcr.io/open-webui/open-webui:main

注意:host.docker.internal用于 Docker 容器访问宿主机上的 vLLM 服务。

登录与测试

等待服务启动完成后,访问http://localhost:7860,输入演示账号信息:

  • 邮箱:kakajiang@kakajiang.com
  • 密码:kakajiang

即可进入图形化聊天界面,进行多轮对话、函数调用、JSON 输出等高级功能测试。


4. Jupyter Notebook 集成方案

4.1 修改端口映射实现共存

默认情况下,Jupyter Notebook 使用8888端口,而 Open WebUI 使用7860。为在同一机器上同时运行两者,需调整 Jupyter 的启动参数。

启动 Jupyter 并绑定到 7860 端口
jupyter notebook --ip=0.0.0.0 --port=7860 --no-browser --allow-root

此时可通过http://<your-ip>:7860访问 Jupyter,但会与 Open WebUI 冲突。因此建议采用反向代理分流策略。

4.2 使用 Nginx 实现端口分流(推荐)

安装 Nginx 并配置路由规则:

server { listen 80; location /webui/ { proxy_pass http://127.0.0.1:7860/; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; } location /jupyter/ { proxy_pass http://127.0.0.1:8888/; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; } }

重启 Nginx 后:

  • 访问http://localhost/webui→ Open WebUI
  • 访问http://localhost/jupyter→ Jupyter Notebook

实现统一入口下的多服务共存。

4.3 在 Jupyter 中调用本地大模型 API

在 Notebook 单元格中使用openai兼容客户端请求模型服务:

from openai import OpenAI # 指向本地 vLLM 服务 client = OpenAI( base_url="http://localhost:8000/v1", api_key="EMPTY" # vLLM 不需要真实密钥 ) response = client.chat.completions.create( model="deepseek-r1-distill-qwen-1.5b", messages=[ {"role": "user", "content": "请帮我解这个方程:x^2 - 5x + 6 = 0"} ], temperature=0.7, max_tokens=512 ) print(response.choices[0].message.content)

输出示例:

这是一个一元二次方程,我们可以使用因式分解法来求解: x² - 5x + 6 = 0 → (x - 2)(x - 3) = 0 所以解为:x = 2 或 x = 3。

✅ 成功实现 AI 数学推理辅助!


5. 性能优化与进阶技巧

5.1 降低显存占用:启用 PagedAttention

vLLM 默认启用 PagedAttention 技术,显著提升长序列处理效率。可通过参数微调进一步优化:

--enable-prefix-caching \ --scheduling-policy fcfs \ --max-num-seqs 16 \ --max-num-batched-tokens 4096

适用于高并发场景下的吞吐优化。

5.2 移动端与嵌入式部署建议

对于树莓派、RK3588 等 ARM 设备,推荐使用llama.cpp + GGUF 量化模型

./main -m ./models/deepseek-r1-qwen-1.5b.Q4_K_M.gguf \ -p "你的问题" \ --temp 0.7 \ --n_predict 512 \ --threads 8

实测在 RK3588 上完成 1k token 推理仅需约 16 秒,满足离线助手需求。

5.3 函数调用与 Agent 插件开发

该模型支持结构化输出,可用于构建本地 Agent 应用。例如定义工具 schema:

{ "name": "get_weather", "description": "获取指定城市的天气信息", "parameters": { "type": "object", "properties": { "city": {"type": "string"} }, "required": ["city"] } }

结合 LangChain 或 LlamaIndex 可快速搭建具备外部能力的智能体系统。


6. 总结

6.1 核心价值回顾

DeepSeek-R1-Distill-Qwen-1.5B 是当前极具性价比的轻量级推理模型,其特点可归纳为:

  • 小体积大能量:1.5B 参数跑出 7B 级别表现,尤其擅长数学与代码任务。
  • 低门槛易部署:支持 vLLM、Ollama、llama.cpp 多种方式,覆盖从服务器到边缘设备的全场景。
  • 开放可商用:Apache 2.0 协议授权,适合企业产品集成。
  • 高效推理速度:RTX 3060 上可达 200 tokens/s,A17 芯片上超过 120 tokens/s。

6.2 最佳实践建议

  1. 本地开发辅助:将模型接入 Jupyter,实现代码自动补全、错误诊断、算法解释等功能。
  2. 私有化客服机器人:结合 Open WebUI 快速搭建无需联网的智能问答系统。
  3. 教育领域应用:作为数学辅导助手,帮助学生理解复杂题目的解题过程。
  4. 嵌入式智能终端:部署于工业控制板卡或移动设备,提供离线 AI 支持。

通过本文介绍的 vLLM + Open WebUI + Jupyter 三位一体架构,开发者可以轻松构建一个功能完整、响应迅速、安全可控的本地大模型应用体系。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/22 8:22:54

B站视频高效下载解决方案:从基础配置到专业应用

B站视频高效下载解决方案&#xff1a;从基础配置到专业应用 【免费下载链接】bilibili-downloader B站视频下载&#xff0c;支持下载大会员清晰度4K&#xff0c;持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 你是否曾经因为网络不稳定…

作者头像 李华
网站建设 2026/3/25 18:45:45

终极指南:艾尔登法环存档迁移,3分钟掌握跨设备进度同步

终极指南&#xff1a;艾尔登法环存档迁移&#xff0c;3分钟掌握跨设备进度同步 【免费下载链接】EldenRingSaveCopier 项目地址: https://gitcode.com/gh_mirrors/el/EldenRingSaveCopier 还在为更换电脑或游戏重装而烦恼存档丢失问题吗&#xff1f;艾尔登法环存档迁移…

作者头像 李华
网站建设 2026/3/26 11:18:55

如何快速掌握近红外光谱分析:开源数据集的终极指南

如何快速掌握近红外光谱分析&#xff1a;开源数据集的终极指南 【免费下载链接】Open-Nirs-Datasets Open source data set for quantitative and qualitative analysis of near-infrared spectroscopy 项目地址: https://gitcode.com/gh_mirrors/op/Open-Nirs-Datasets …

作者头像 李华
网站建设 2026/3/24 23:27:03

没GPU怎么玩语音识别?Fun-ASR云端镜像2块钱搞定方言测试

没GPU怎么玩语音识别&#xff1f;Fun-ASR云端镜像2块钱搞定方言测试 你是不是也遇到过这样的问题&#xff1a;想做个方言语音识别的小项目&#xff0c;比如测试粤语或四川话的转写效果&#xff0c;但家里电脑只有集成显卡&#xff0c;根本跑不动大模型&#xff1f;租一台带GPU…

作者头像 李华
网站建设 2026/3/25 8:53:08

终极指南:DaoCloud镜像加速技术让国内开发者告别Docker拉取困境

终极指南&#xff1a;DaoCloud镜像加速技术让国内开发者告别Docker拉取困境 【免费下载链接】public-image-mirror 很多镜像都在国外。比如 gcr 。国内下载很慢&#xff0c;需要加速。 项目地址: https://gitcode.com/GitHub_Trending/pu/public-image-mirror &#x1f…

作者头像 李华
网站建设 2026/3/26 19:19:50

高效音频修复的5大实用场景与进阶操作指南

高效音频修复的5大实用场景与进阶操作指南 【免费下载链接】voicefixer General Speech Restoration 项目地址: https://gitcode.com/gh_mirrors/vo/voicefixer 在现代数字生活中&#xff0c;音频质量问题常常困扰着各类用户。VoiceFixer作为专业的音频修复工具&#xf…

作者头像 李华