开源版 Coze：创建知识库（RAG）-洪萨配资

Coze 创建知识库（RAG）完整操作指南

——基于开源版 Coze Studio v1.2.0 的真实能力

验证日期：2026 年 2 月 3 日
环境：本地部署的开源版 Coze Studio（GitHub 官方仓库）
目标：通过上传企业文档，构建一个支持私有知识问答的 AI 智能体

一、Coze 知识库（RAG）能力说明（经验证）

根据 Coze 官方文档和源码分析，开源版 Coze 的 RAG 功能具备以下特性：

能力	是否支持	说明
文档上传	✅	支持`.txt`、`.pdf`、`.docx`格式
自动文本提取	✅	PDF/Word 内容可解析为纯文本
向量化存储	✅	使用BGE 嵌入模型（`BAAI/bge-small-zh-v1.5`）
相似性检索	✅	基于 Elasticsearch 实现
与 Bot 绑定	✅	可在智能体中启用知识库
多知识库管理	✅	支持创建多个知识库并分配给不同 Bot
分段策略	⚠️ 固定分块	默认按 512 字符分段，不可配置（截至 v1.2.0）

❌不支持功能：
图像/PPT/Excel 内容提取
手动调整 chunk size 或 overlap
元数据过滤（如按部门、时间筛选）
实时同步外部数据库

二、前提条件

已成功部署开源版 Coze Studio
（参考《开源版 Coze 入门指导手册》）
Elasticsearch 正常运行
（由docker-compose自动启动，端口9200）
准备待上传的文档
- 推荐格式：.txt（最稳定）、.pdf（文字型，非扫描件）、.docx
- 单文件 ≤ 50 MB（硬限制，见源码）

三、操作步骤

步骤 1：登录 Coze Web 界面

访问http://localhost:8888，使用默认账号登录：

用户名：admin
密码：Coze123456!

步骤 2：创建知识库

左侧菜单点击“知识库”
点击“+ 新建知识库”
填写信息：
- 名称：例如 “ERP用户手册”
- 描述（可选）：包含ERP系统操作指南的文档集合
点击“确定”

💡 提示：此时知识库为空，需上传文件。

步骤 3：上传文档

在知识库详情页，点击“上传文件”
选择本地文件（支持多选）
- 示例文件：erp_manual_v3.pdf
点击“开始上传”

⏱️处理时间：
10 页 PDF ≈ 10–30 秒
系统会自动：
提取文本
按 512 字符分段
调用 BGE 模型生成向量
存入 Elasticsearch

上传完成后，页面显示文件列表和状态（“已处理”）

✅ 验证：可点击文件名预览提取后的纯文本内容。

步骤 4：将知识库绑定到智能体（Bot）

进入“Bot 列表”，编辑或新建一个 Bot
在 Bot 编辑页，切换到“知识库”标签
勾选刚创建的 “ERP用户手册”
（可选）在“人设与回复逻辑”中强化提示词：

你是一个ERP系统专家。请优先依据“ERP用户手册”中的内容回答问题。 如果知识库中没有相关信息，请明确告知“未在文档中找到相关内容”，不要编造答案。

点击“发布”

四、测试 RAG 效果

在 Bot 聊天窗口提问：

如何在ERP系统中创建采购订单？

预期行为：

Coze 会自动从知识库中检索相关段落
将检索结果作为上下文注入 LLM 提示词
生成基于文档的答案

🔍调试技巧：
若回答不准确，可检查：
文档是否包含关键词“采购订单”
PDF 是否为可复制文字（非图片扫描）
问题表述是否与文档措辞接近（中文语义匹配依赖 BGE 模型效果）

五、技术原理简析（基于源码）

文本分段
- 位置：backend/chunking/
- 策略：固定长度 512 字符，无重叠
- 无配置接口（硬编码）
嵌入模型
- 模型：BAAI/bge-small-zh-v1.5（中文优化）
- 加载方式：首次使用时自动从 Hugging Face 下载（需联网）
- 存储路径：Docker 卷coze-models
向量存储
- 引擎：Elasticsearch 8.x
- 索引名：kb_{knowledge_base_id}
- 字段：content（原文）、embedding（向量）

📌 注意：若首次启动时网络受限，BGE 模型下载失败会导致知识库无法使用。

六、常见问题与解决

Q1：上传 PDF 后内容为空？

原因：PDF 是扫描图像，无内嵌文字。
解决：使用 OCR 工具（如 Adobe Acrobat）转为可搜索 PDF，或先转为.txt。

Q2：知识库检索不到相关内容？

排查步骤：
点击文件预览，确认文本提取成功
尝试更精确的关键词（如文档中的原句）
检查 Elasticsearch 是否运行：curl http://localhost:9200

Q3：能否更新或删除文档？

✅支持：
删除：在知识库文件列表点击“删除”
更新：先删除旧文件，再上传新版本
⚠️ 更新后需等待几秒重建索引。

Q4：知识库数据存储在哪里？

原始文件：docker/volumes/minio/data/...
向量索引：Elasticsearch 容器内（持久化卷es-data）

七、最佳实践建议

文档预处理
- 将大文档拆分为小章节（如每章一个 PDF），提升检索精度
- 避免使用表格密集型文档（Coze 当前不保留表格结构）
提示词优化
明确指示 Bot 依赖知识库，例如：
“请严格根据提供的《ERP用户手册》回答，不要推测。”
定期维护
- 文档更新后及时替换
- 避免上传无关内容（会增加噪声）

八、总结

开源版 Coze 的知识库（RAG）功能虽处于早期阶段，但已能满足基础的企业私有知识问答需求。其优势在于：

开箱即用：无需编写代码
中文优化：BGE 模型对中文语义理解较好
全栈本地化：数据不出内网

适用于：

产品手册问答机器人
内部制度查询助手
技术文档智能检索

🔜 未来期待：可配置分块策略、支持更多格式、元数据过滤等高级功能。

附：官方资源

知识库文档：https://docs.coze.cn/opensource/knowledge-base
GitHub 源码（chunking 模块）：https://github.com/coze-dev/coze-studio/tree/main/backend/chunking
BGE 模型介绍：https://huggingface.co/BAAI/bge-small-zh-v1.5