DeepSeek-R1-Distill-Qwen-1.5B在Ubuntu系统下的快速部署教程-洪萨配资

DeepSeek-R1-Distill-Qwen-1.5B在Ubuntu系统下的快速部署教程

1. 为什么选择这个模型来上手

刚接触大模型部署的朋友可能会被各种参数、框架和配置吓到，特别是看到动辄几十GB的模型文件时。DeepSeek-R1-Distill-Qwen-1.5B是个很特别的选择——它只有15亿参数，模型大小约6.7GB，对硬件要求友好得多。我试过在一台普通的Ubuntu台式机上跑它，4核CPU加32GB内存就能稳稳运行，不需要昂贵的GPU也能有不错的响应速度。

这个模型不是从零训练出来的，而是用更大的DeepSeek-R1模型“蒸馏”出来的精华版本。你可以把它理解成一位经验丰富的老师，把多年积累的知识浓缩成一套高效实用的教学方法。它保留了原模型的核心能力，比如逻辑推理、代码理解和多轮对话，但体积更小、启动更快、资源占用更低。

在Ubuntu系统上部署它，最大的好处是稳定性和可控性。不像某些云服务需要申请API密钥、担心调用限制或网络延迟，本地部署后，你的数据完全留在自己机器上，输入什么内容、生成什么结果，全程都在你掌控之中。而且Ubuntu作为开发者最常用的Linux发行版之一，社区支持丰富，遇到问题很容易找到解决方案。

如果你之前没怎么接触过命令行操作，别担心。整个过程我会用最直白的语言说明每一步在做什么，就像朋友手把手教你一样。不需要记住复杂的命令，只要跟着做，大概二十分钟就能让这个AI助手在你的Ubuntu系统上跑起来。

2. 环境准备与依赖安装

2.1 系统要求确认

首先确认你的Ubuntu版本。这个教程适用于Ubuntu 22.04及更新版本，如果你用的是较老的20.04，建议先升级一下系统，因为新版本对Python和CUDA的支持更完善。打开终端，输入以下命令查看系统信息：

lsb_release -a

你应该能看到类似这样的输出：

Distributor ID: Ubuntu Description: Ubuntu 22.04.4 LTS Release: 22.04 Codename: jammy

接着检查Python版本，确保是3.9或更高版本：

python3 --version

如果显示的是3.8或更低版本，建议升级Python。不过大多数Ubuntu 22.04默认已经安装了3.10，所以这一步通常可以直接跳过。

2.2 安装基础依赖

Ubuntu系统自带的软件源有时会比较旧，我们需要先更新一下。在终端中依次执行以下命令：

sudo apt update && sudo apt upgrade -y

然后安装一些必要的构建工具和开发库：

sudo apt install -y python3-pip python3-dev build-essential git curl wget

这里安装的几个工具各有用途：python3-pip是用来管理Python包的，python3-dev包含编译Python扩展所需的头文件，build-essential是一套编译工具链，git用来下载代码，curl和wget则是下载文件的命令行工具。

2.3 创建独立的Python环境

为了避免影响系统原有的Python环境，我强烈建议为这个项目创建一个独立的虚拟环境。这样做有两个好处：一是不会和其他Python项目产生依赖冲突，二是以后想清理这个项目时，直接删除整个文件夹就行，非常干净。

执行以下命令创建并激活虚拟环境：

python3 -m venv deepseek-env source deepseek-env/bin/activate

激活后，你会在终端提示符前面看到(deepseek-env)字样，这就表示当前所有操作都在这个独立环境中进行。

2.4 安装核心Python包

现在我们安装运行模型所需的核心包。注意，这里我们不使用vLLM这种需要GPU加速的方案，而是选择更轻量的transformers+torch组合，这样即使没有NVIDIA显卡也能运行：

pip install --upgrade pip pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu pip install transformers accelerate sentencepiece

第一条命令确保pip是最新的；第二条安装PyTorch的CPU版本（注意末尾的--index-url参数指定了CPU版本的下载地址）；第三条安装Hugging Face的transformers库和相关依赖。

安装过程可能需要几分钟，取决于你的网络速度。如果某个包安装失败，可以尝试单独安装，比如：

pip install transformers --no-deps pip install accelerate sentencepiece

3. 模型下载与本地化配置

3.1 从Hugging Face获取模型

DeepSeek-R1-Distill-Qwen-1.5B模型托管在Hugging Face上，我们可以直接用git-lfs下载。首先确保你已经安装了git-lfs：

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash sudo apt-get install -y git-lfs git lfs install

然后创建一个专门存放模型的目录：

mkdir -p ~/models/deepseek-r1-distill cd ~/models/deepseek-r1-distill

现在开始下载模型。注意，这里我们使用的是官方模型ID，不是第三方转换版本：

git lfs clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B .

这个下载过程可能需要一段时间，模型文件大约6.7GB。如果你的网络不太稳定，可以考虑使用国内镜像源。Hugging Face在国内有镜像站，下载速度会快很多：

git lfs clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B .

下载完成后，你可以用ls -lh命令查看文件大小，确认所有文件都已完整下载。

3.2 验证模型完整性

下载完成后，我们简单验证一下模型是否能正常加载。回到之前创建的虚拟环境，运行以下Python代码：

from transformers import AutoTokenizer, AutoModelForCausalLM model_path = "/home/your-username/models/deepseek-r1-distill" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForCausalLM.from_pretrained(model_path) print("模型加载成功！") print(f"模型类型：{type(model)}") print(f"分词器类型：{type(tokenizer)}")

把上面代码中的your-username替换成你自己的用户名。如果一切正常，你会看到"模型加载成功！"的输出，说明模型文件没有损坏，路径也设置正确。

3.3 处理常见的路径问题

在实际操作中，我遇到过不少朋友因为路径问题卡住。这里分享几个常见情况的解决方法：

如果提示"Permission denied"，说明你没有读取模型文件的权限。执行chmod -R 755 ~/models/deepseek-r1-distill即可
如果提示"OSError: Can't load tokenizer"，检查模型目录下是否有tokenizer.json或tokenizer.model文件，如果没有，可能是下载不完整，需要重新下载
如果提示"Out of memory"，不要慌，这是正常现象。我们接下来会通过优化参数来解决这个问题

Ubuntu系统对路径大小写敏感，所以一定要确保路径中的字母大小写完全匹配。另外，建议把模型放在用户主目录下，避免使用/tmp或/var等系统目录，因为这些目录可能有特殊的权限限制。

4. 快速启动交互式对话服务

4.1 编写一个简单的交互脚本

现在我们来编写一个能让模型真正"说话"的Python脚本。创建一个新文件chat.py：

nano ~/deepseek-chat/chat.py

然后粘贴以下内容：

#!/usr/bin/env python3 from transformers import AutoTokenizer, AutoModelForCausalLM import torch # 加载模型和分词器 model_path = "/home/your-username/models/deepseek-r1-distill" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16) # 设置pad_token，避免生成时出错 if tokenizer.pad_token is None: tokenizer.pad_token = tokenizer.eos_token # 将模型移到CPU（如果没有GPU） device = torch.device("cpu") model.to(device) print("DeepSeek-R1-Distill-Qwen-1.5B已启动！输入'quit'退出对话。") print("=" * 50) while True: # 获取用户输入 user_input = input("\n你: ") # 退出条件 if user_input.lower() in ['quit', 'exit', 'q']: print("再见！") break # 构建对话历史（简化版） messages = [ {"role": "user", "content": user_input} ] # 使用chat template格式化输入 prompt = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) # 编码输入 inputs = tokenizer(prompt, return_tensors="pt").to(device) # 生成回复 with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=256, do_sample=True, temperature=0.7, top_p=0.9, repetition_penalty=1.1, pad_token_id=tokenizer.pad_token_id ) # 解码并提取回复 response = tokenizer.decode(outputs[0], skip_special_tokens=True) # 去掉输入部分，只保留模型生成的内容 if "assistant" in response: response = response.split("assistant")[-1].strip() print(f"AI: {response}")

记得把your-username替换成你自己的用户名。这个脚本做了几件重要的事情：自动处理对话模板、设置合适的生成参数、处理CPU运行的兼容性问题，以及优雅地提取模型生成的回复。

4.2 运行对话服务

保存文件后，给它添加执行权限：

chmod +x ~/deepseek-chat/chat.py

然后运行：

python3 ~/deepseek-chat/chat.py

第一次运行时，模型会加载到内存中，可能需要十几秒时间。之后每次生成回复都会快很多。你可以试着输入一些简单的问题，比如：

"你好，介绍一下你自己"
"用Python写一个计算斐波那契数列的函数"
"给我讲个简短的笑话"

你会发现，虽然这是一个1.5B的小模型，但在日常对话、代码辅助和常识问答方面表现相当不错。它的响应速度比很多在线服务还要快，因为没有网络传输的延迟。

4.3 优化内存使用的小技巧

如果你的机器内存比较紧张（比如只有16GB），可以进一步优化内存使用。在上面的脚本中，找到model = AutoModelForCausalLM.from_pretrained(...)这一行，修改为：

model = AutoModelForCausalLM.from_pretrained( model_path, torch_dtype=torch.float16, low_cpu_mem_usage=True, use_safetensors=True )

low_cpu_mem_usage=True参数会让模型以更节省内存的方式加载，use_safetensors=True则使用更高效的文件格式。这两个参数组合起来，可以让16GB内存的机器也流畅运行这个模型。

另外，如果你发现终端输出太长影响阅读，可以在生成参数中添加truncation=True，这样会自动截断过长的回复，保持界面清爽。

5. 实用技巧与进阶应用

5.1 提升对话质量的提示词技巧

模型本身的能力是固定的，但我们可以通过调整输入方式来显著提升输出质量。这里分享几个我在实际使用中总结出来的技巧：

第一，明确角色设定。在对话开始时，告诉模型它应该扮演什么角色。比如：

你是一位资深的Python开发工程师，专注于Web开发和自动化脚本编写。请用简洁明了的语言回答问题，避免使用过于专业的术语。

第二，控制输出格式。如果你需要特定格式的回复，直接在提示中说明。例如：

请用Markdown格式列出三个学习Python的建议，每个建议用一句话说明，并在最后给出一个实践小任务。

第三，提供上下文示例。对于复杂任务，给一两个例子效果很好：

将下面的英文翻译成中文，保持技术文档的风格： Input: "The system will automatically scale resources based on workload." Output: "系统将根据工作负载自动扩展资源。" Input: "This feature requires GPU acceleration to function properly."

这些技巧不需要修改任何代码，只需要在和模型对话时稍微调整一下提问方式，就能获得更符合预期的结果。

5.2 批量处理文本的实用脚本

除了交互式对话，这个模型还可以用来批量处理文本。比如，你有一堆产品描述需要改写得更吸引人，或者需要把会议记录整理成要点。创建一个batch_process.py文件：

#!/usr/bin/env python3 from transformers import AutoTokenizer, AutoModelForCausalLM import torch import json # 加载模型（同上） model_path = "/home/your-username/models/deepseek-r1-distill" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16) model.to(torch.device("cpu")) def process_text(text): prompt = f"""请将以下文本改写成更专业、更有吸引力的版本，保持原意不变： {text} 改写后的文本：""" inputs = tokenizer(prompt, return_tensors="pt").to("cpu") outputs = model.generate( **inputs, max_new_tokens=128, temperature=0.5, top_p=0.85 ) result = tokenizer.decode(outputs[0], skip_special_tokens=True) return result.split("改写后的文本：")[-1].strip() # 示例：处理一批文本 texts = [ "这个手机电池很耐用", "我们的软件运行速度快", "产品包装很结实" ] for i, text in enumerate(texts, 1): print(f"原文 {i}: {text}") print(f"改写 {i}: {process_text(text)}\n")

这个脚本展示了如何把模型变成一个文本处理工具，而不是仅仅用于聊天。你可以根据自己的需求修改process_text函数中的提示词，让它完成摘要、翻译、润色等各种任务。

5.3 与现有工作流集成

很多开发者已经有一套成熟的工作流程，不想为了用AI而改变太多。这里提供两个简单的集成思路：

与VS Code集成：安装VS Code的Python插件后，你可以把上面的脚本保存为.py文件，然后在VS Code中直接右键运行。配合Code Runner插件，甚至可以一键执行并查看结果。

与Shell命令集成：创建一个shell别名，让你能在任何目录下快速调用模型。编辑~/.bashrc文件：

echo 'alias ask-deepseek="python3 ~/deepseek-chat/chat.py"' >> ~/.bashrc source ~/.bashrc

然后在任何地方输入ask-deepseek就能启动对话服务，非常方便。

这些集成方式都不需要复杂的配置，都是基于Ubuntu系统原生支持的功能，既保持了系统的简洁性，又增加了实用性。

6. 常见问题与解决方案

6.1 模型加载慢或内存不足

这是新手最常见的问题。如果你发现模型加载需要很长时间，或者出现"MemoryError"，不要着急。首先检查你的可用内存：

free -h

如果可用内存小于8GB，建议关闭其他占用内存的程序。另外，可以尝试降低模型精度：

model = AutoModelForCausalLM.from_pretrained( model_path, torch_dtype=torch.bfloat16, # 比float16更省内存 low_cpu_mem_usage=True )

还有一个更彻底的解决方案：使用量化版本。Hugging Face上有社区提供的4-bit量化模型，体积更小，内存占用更低。搜索"DeepSeek-R1-Distill-Qwen-1.5B GGUF"就能找到，然后用llama.cpp加载，对CPU的要求会进一步降低。

6.2 生成内容重复或不连贯

有时候你会发现模型生成的内容有重复，或者回答看起来不相关。这通常是因为生成参数设置不当。在generate函数中，调整这几个参数：

repetition_penalty=1.2：值越大，越能避免重复词组
temperature=0.6：值越小，输出越确定、越保守
top_p=0.8：只从概率最高的80%词汇中采样，避免冷门词汇

如果问题依然存在，可以尝试在提示词末尾加上"请用简洁明了的语言回答，不要重复前面的内容。"这样的指令，模型对这类明确指示的响应通常很好。

6.3 中文支持问题

DeepSeek-R1-Distill-Qwen系列模型对中文支持很好，但偶尔会出现乱码或编码问题。如果遇到这种情况，确保你的终端支持UTF-8编码：

locale

如果输出中没有UTF-8，执行：

export LANG=en_US.UTF-8 export LC_ALL=en_US.UTF-8

然后重新运行脚本。另外，在Python脚本开头添加：

import locale locale.setlocale(locale.LC_ALL, 'en_US.UTF-8')

这样就能确保整个Python环境都使用正确的编码。

6.4 更新模型和保持系统整洁

随着时间推移，模型可能会有新版本发布。要更新模型，最简单的方法是：

cd ~/models/deepseek-r1-distill git pull

如果提示需要认证，说明模型仓库设置了访问限制，这时可以重新下载。为了保持系统整洁，建议定期清理Python缓存：

pip cache info pip cache purge

还有，如果你不再需要这个项目，直接删除整个deepseek-env虚拟环境和~/models/deepseek-r1-distill目录即可，不会影响系统其他部分。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek-R1-Distill-Qwen-1.5B在Ubuntu系统下的快速部署教程