惊艳！DeepSeek-R1-Distill-Qwen-1.5B生成的诗歌案例分享-洪萨配资

惊艳！DeepSeek-R1-Distill-Qwen-1.5B生成的诗歌案例分享

1. 引言：轻量级大模型的艺术表达潜力

随着大语言模型在推理、代码生成和数学计算等任务上的不断突破，其在创造性内容生成方面的能力也日益受到关注。DeepSeek-R1-Distill-Qwen-1.5B作为一款基于知识蒸馏技术优化的轻量化模型，在保持高性能的同时显著降低了部署门槛。尤其值得注意的是，该模型在文学创作类任务中展现出令人惊艳的表现力。

本文将聚焦于一个具体而富有美感的应用场景——诗歌生成，通过实际调用已部署的 DeepSeek-R1-Distill-Qwen-1.5B 模型服务，展示其生成高质量五言绝句的能力，并结合工程实践解析关键配置要点与性能优化建议。

2. 模型能力背景与技术特性

2.1 DeepSeek-R1-Distill-Qwen-1.5B 核心设计优势

DeepSeek-R1-Distill-Qwen-1.5B 是由 DeepSeek 团队基于 Qwen2.5-Math-1.5B 基础模型，融合 R1 架构并通过知识蒸馏技术精炼而成的轻量级版本。其主要技术亮点包括：

参数效率高：通过结构化剪枝与量化感知训练，将参数压缩至 1.5B 级别，同时在 C4 数据集上保留超过 85% 的原始精度。
垂直领域增强：在蒸馏过程中引入法律、医疗等专业语料，使模型在特定任务中的 F1 值提升 12–15 个百分点。
硬件友好性强：支持 INT8 量化，内存占用较 FP32 模式降低 75%，可在 NVIDIA T4 等边缘设备实现低延迟实时推理。

这些特性使得该模型不仅适用于工业级推理任务，也为本地化创意应用提供了可行性基础。

2.2 创作类任务的关键配置建议

根据官方文档提示，在使用 DeepSeek-R1 系列模型进行文本生成时，需注意以下几点以确保输出质量：

配置项	推荐值	说明
温度（temperature）	0.6（推荐范围 0.5–0.7）	控制生成多样性，过高易导致不连贯，过低则重复
系统提示（system prompt）	不建议使用	所有指令应包含在用户输入中
数学问题处理	添加“请逐步推理”指令	提升逻辑链完整性
输出格式控制	强制首行换行`\n`	避免跳过思维过程

对于诗歌生成这类需要连贯意境的任务，合理设置温度值并避免系统提示干扰，是获得自然流畅结果的关键。

3. 实践操作：调用模型生成古典诗歌

3.1 环境准备与服务验证

在开始诗歌生成前，需确认模型服务已正确启动。按照标准流程执行如下命令：

cd /root/workspace cat deepseek_qwen.log

若日志中出现Uvicorn running on http://0.0.0.0:8000类似信息，则表示 vLLM 服务已成功运行。

此外，可通过 Jupyter Lab 调用 OpenAI 兼容接口进行测试。

3.2 完整代码实现：构建 LLM 客户端并生成诗歌

以下为完整的 Python 示例代码，用于连接本地部署的模型服务并发起诗歌生成请求。

from openai import OpenAI import requests import json class LLMClient: def __init__(self, base_url="http://localhost:8000/v1"): self.client = OpenAI( base_url=base_url, api_key="none" # vllm通常不需要API密钥 ) self.model = "DeepSeek-R1-Distill-Qwen-1.5B" def chat_completion(self, messages, stream=False, temperature=0.7, max_tokens=2048): """基础的聊天完成功能""" try: response = self.client.chat.completions.create( model=self.model, messages=messages, temperature=temperature, max_tokens=max_tokens, stream=stream ) return response except Exception as e: print(f"API调用错误: {e}") return None def stream_chat(self, messages): """流式对话示例""" print("AI: ", end="", flush=True) full_response = "" try: stream = self.chat_completion(messages, stream=True) if stream: for chunk in stream: if chunk.choices[0].delta.content is not None: content = chunk.choices[0].delta.content print(content, end="", flush=True) full_response += content print() # 换行 return full_response except Exception as e: print(f"流式对话错误: {e}") return "" def simple_chat(self, user_message, system_message=None): """简化版对话接口""" messages = [] if system_message: messages.append({"role": "system", "content": system_message}) messages.append({"role": "user", "content": user_message}) response = self.chat_completion(messages) if response and response.choices: return response.choices[0].message.content return "请求失败" # 使用示例 if __name__ == "__main__": # 初始化客户端 llm_client = LLMClient() print("\n=== 流式对话测试：生成关于秋天的五言绝句 ===") messages = [ {"role": "user", "content": "你是一个诗人，请写两首关于秋天的五言绝句"} ] result = llm_client.stream_chat(messages)

重要提示：尽管上述代码可直接运行，但在实际部署中发现，若使用torch.float16加载模型可能导致生成异常（如inf,nan错误）。推荐改为bfloat16以提升稳定性。

修改建议（适用于 Hugging Face 原生加载方式）

model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", torch_dtype=torch.bfloat16, # 替代 float16 trust_remote_code=True, low_cpu_mem_usage=True, attn_implementation="eager" ).to("cuda")

此修改可有效规避因浮点数溢出导致的概率张量异常问题，保障生成过程稳定。

4. 诗歌生成效果展示与分析

4.1 实际输出结果

运行上述脚本后，模型返回了如下两首五言绝句：

秋风扫落叶，寒雁唳长空。 霜染千山色，江流万壑通。 孤舟泊野渡，暮火照渔篷。 夜静人声寂，清辉入梦中。

从格律角度看： - 每首四句，每句五字，符合五言绝句基本形式； - 押韵工整（第一首押“东”韵，第二首押“中”韵）； - 意象丰富，涵盖“秋风”“寒雁”“孤舟”“清辉”等典型秋季元素； - 对仗自然，如“霜染千山色，江流万壑通”具有较强画面感。

4.2 生成质量评估

我们从以下几个维度对生成结果进行评估：

维度	表现	说明
形式合规性	✅	完全符合五言绝句格式要求
语义连贯性	✅	诗句内部逻辑清晰，无跳跃断裂
意境营造	⭐⭐⭐⭐☆	具备传统山水诗的静谧美感
创新性	⭐⭐⭐☆☆	主题常见但表达新颖，未出现模板化套话
文化契合度	✅	使用典有意象，符合中文审美传统