Qwen3-1.7B与Milvus集成：向量数据库联合部署案例-洪萨配资

Qwen3-1.7B与Milvus集成：向量数据库联合部署案例

1. Qwen3-1.7B 模型简介

Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B至235B。其中，Qwen3-1.7B 是该系列中的一款轻量级但功能强大的语言模型，适合在资源受限的环境中进行快速推理和本地化部署。

这款模型不仅具备出色的自然语言理解与生成能力，还支持思维链（Chain-of-Thought）推理、结构化输出以及流式响应等功能，非常适合用于构建智能问答系统、知识检索增强应用以及本地AI助手等场景。由于其体积适中、性能稳定，成为许多开发者在边缘设备或私有化部署中的首选。

更重要的是，Qwen3-1.7B 支持通过标准 OpenAI 兼容接口调用，极大降低了接入门槛。结合 LangChain 等主流框架，可以轻松实现与外部工具、数据库和应用系统的集成。本文将重点展示如何将 Qwen3-1.7B 与 Milvus 向量数据库联合部署，打造一个高效、可扩展的语义搜索与智能问答系统。

2. 部署环境准备与镜像启动

要完成 Qwen3-1.7B 与 Milvus 的联合部署，首先需要确保运行环境具备 GPU 支持，并能够访问预置的容器镜像。CSDN 提供的一体化 AI 镜像平台已集成 Qwen3 系列模型及 Milvus 向量数据库，支持一键拉起 Jupyter 开发环境。

2.1 启动镜像并进入 Jupyter

登录 CSDN 星图 AI 平台后，选择包含 Qwen3 和 Milvus 的预置镜像模板，点击“启动实例”。系统会自动分配 GPU 资源并初始化容器环境。启动完成后，可通过 Web UI 访问内置的 Jupyter Notebook 服务。

默认端口为8000，访问地址形如：

https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net

打开浏览器即可进入交互式开发界面。此时，你已经拥有了一个集成了 Qwen3-1.7B 推理服务、LangChain 框架和 Milvus 向量数据库的完整 AI 开发环境。

3. 使用 LangChain 调用 Qwen3-1.7B 模型

在 Jupyter 中，我们可以使用 LangChain 提供的标准接口来调用 Qwen3-1.7B 模型。得益于其对 OpenAI API 格式的兼容性，只需简单配置即可实现无缝对接。

3.1 基础调用示例

以下代码展示了如何通过langchain_openai.ChatOpenAI类调用 Qwen3-1.7B 模型：

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="Qwen3-1.7B", temperature=0.5, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", # 替换为当前 Jupyter 实例的实际地址 api_key="EMPTY", extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, ) response = chat_model.invoke("你是谁？") print(response)

说明：
base_url必须指向你的实际服务地址，注意端口号为8000。
api_key="EMPTY"表示无需认证，适用于本地测试环境。
extra_body参数用于启用高级功能，如开启思维链推理（enable_thinking）和返回中间推理过程（return_reasoning）。
streaming=True可实现逐字输出，提升用户体验。

执行上述代码后，模型将返回一段结构化的响应内容，包括身份介绍、功能说明以及生成逻辑的简要解释（若启用了 reasoning 模式）。这表明 Qwen3-1.7B 已成功加载并正常工作。

图：Qwen3-1.7B 在 Jupyter 中成功响应“你是谁？”

4. Milvus 向量数据库配置与数据导入

接下来，我们将引入 Milvus 作为向量存储引擎，用于保存文本嵌入并向量化查询请求提供高速相似度检索能力。

4.1 连接 Milvus 实例

假设 Milvus 服务已在同一容器内运行，默认监听127.0.0.1:19530。我们可以通过 pymilvus SDK 进行连接：

from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection # 建立连接 connections.connect("default", host="127.0.0.1", port="19530") # 定义集合结构 fields = [ FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True), FieldSchema(name="text", dtype=DataType.VARCHAR, max_length=65535), FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1024) ] schema = CollectionSchema(fields, description="Qwen3 text embeddings") collection = Collection("qwen3_knowledge_base", schema)

4.2 文本向量化与数据插入

为了实现语义搜索，我们需要先将知识库中的文本转换为向量。这里可以使用 Sentence Transformers 或阿里自研的 embedding 模型。假设我们已有嵌入模型服务可用：

from sentence_transformers import SentenceTransformer embedder = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') texts = [ "通义千问是阿里巴巴推出的大语言模型。", "Qwen3-1.7B 支持流式输出和思维链推理。", "Milvus 是一个高性能的向量数据库系统。", "LangChain 可以帮助开发者快速构建 LLM 应用程序。" ] embeddings = embedder.encode(texts) # 插入数据 data = [texts, embeddings] collection.insert(data) # 构建索引 index_params = { "metric_type": "L2", "index_type": "IVF_FLAT", "params": {"nlist": 128} } collection.create_index("embedding", index_params) collection.load()

至此，我们的知识库已完成向量化并建立索引，随时可用于语义检索。

5. 联合系统：基于 Qwen3 + Milvus 的语义问答实现

现在我们将 Qwen3-1.7B 与 Milvus 结合，构建一个完整的 RAG（Retrieval-Augmented Generation）问答系统。

5.1 查询流程设计

整体流程如下：

用户输入问题；
使用 embedding 模型将其转为向量；
在 Milvus 中查找最相似的文本片段；
将相关上下文拼接后送入 Qwen3-1.7B 生成答案；
返回最终结果。

5.2 完整实现代码

def retrieve_and_answer(question: str): # 1. 向量化查询 query_embedding = embedder.encode([question]) # 2. Milvus 检索 search_params = {"metric_type": "L2", "params": {"nprobe": 10}} results = collection.search( data=query_embedding, anns_field="embedding", param=search_params, limit=2, output_fields=['text'] ) # 3. 拼接上下文 context_texts = [hit.entity.get('text') for hit in results[0]] context = "\n".join(context_texts) # 4. 调用 Qwen3 生成回答 prompt = f"根据以下信息回答问题：\n\n{context}\n\n问题：{question}\n回答：" response = chat_model.invoke(prompt) return response.content # 测试调用 answer = retrieve_and_answer("Qwen3 支持哪些特性？") print(answer)

输出可能为：

Qwen3 支持多种特性，包括但不限于流式输出、思维链推理（Chain-of-Thought）、结构化内容生成以及与外部系统的集成能力。特别是 Qwen3-1.7B 版本，在保持较小体积的同时仍具备较强的语义理解和生成能力，适用于本地部署和低延迟应用场景。

这表明系统成功结合了 Milvus 的精准检索能力和 Qwen3-1.7B 的强大生成能力，实现了高质量的语义问答。

6. 总结

6.1 技术价值回顾

本文详细演示了如何将 Qwen3-1.7B 大语言模型与 Milvus 向量数据库进行联合部署，构建一个高效的语义检索与智能问答系统。整个过程涵盖了模型调用、向量存储、数据检索与生成整合四大核心环节。

关键优势包括：

轻量高效：Qwen3-1.7B 适合本地部署，资源消耗低；
开放兼容：支持 OpenAI 接口规范，易于与 LangChain 等生态工具集成；
语义精准：借助 Milvus 实现毫秒级向量检索，提升问答准确性；
可扩展性强：支持动态更新知识库，适用于企业级知识管理系统。

6.2 实践建议

对于希望复现该方案的开发者，建议注意以下几点：

确保base_url正确指向实际的服务地址；
若需更高并发性能，可考虑使用 vLLM 或 TensorRT 加速推理；
对于大规模知识库，建议采用分块索引策略并定期优化 Milvus 索引；
生产环境中应增加身份验证机制，避免 API 暴露风险。

通过本次实践可以看出，Qwen3 系列模型与主流向量数据库的结合，正在显著降低 AI 应用落地的技术门槛。无论是做内部知识助手、客服机器人还是内容推荐系统，这套组合都提供了坚实的基础支撑。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen3-1.7B与Milvus集成：向量数据库联合部署案例