杏林集：智汇中医-阶段四-洪萨配资

前言

本阶段聚焦于RAG知识库的落地。我们完成了中医古籍、现代文献、食疗等知识库的向量化构建，实现了基于语义的实时检索。每个Agent在执行前自动获取权威知识片段，有效杜绝了AI“杜撰”条文，为辨证、推荐提供了可溯源的依据，让诊疗结果更专业、可信。

全文将从项目架构、RAG 全流程、知识库构建、检索优化等方面，完整介绍系统设计与落地实现。

本项目采用多智能体 +增强型 RAG 混合检索架构：

采用经典 RAG 架构 + 高级检索优化策略，并进行中医领域深度适配。

为适配中医多类型文献，我们实现统一文档加载器：

文件识别：遍历knowledge目录，按文件后缀匹配专属处理函数

内容加载：兼容多编码 / 多库读取文件原始文本

文本清洗：去除页码、冗余换行、乱码、页眉页脚等噪音

智能分块：按文档类型（古籍txt / 教材md / 药典doc）做层级 / 长度 / 语义分块

结构化输出：生成统一格式的知识块（含标题、来源、原文、标签等）

统一封装：所有格式最终输出为List[Dict]，适配后续向量化检索

各格式文件详细处理逻辑：

处理步骤：UTF-8 编码直接读取 JSON 数据
兼容两种格式：单个 JSON 对象 / JSON 数组
自动添加来源目录元数据，直接并入知识块列表
无清洗、无分块，原样保留结构化知识
适用场景：提前整理好的中医标准知识库、标注数据

项目构建多个领域知识库：

为保证稳定构建，我们对大部头古籍做领域精简,仅保留领域相关内容。

为兼顾语义理解 + 关键词强匹配，我们使用：

融合策略：向量召回 + BM25 召回 + MMR 多样性召回 → 三路结果融合去重 → 送入重排层

MMR 核心价值：防止多个相似古籍条目挤占前列，保证知识来源的丰富性

查询改写
口语提问 → 中医术语扩展
例：多梦 → 不寐、多梦、卧不安、心脾两虚
MMR 多样性重排
在检索召回阶段引入MMR（Maximal Marginal Relevance）算法：
- 核心公式：MMR=argmaxDi∈R∖S[λ⋅sim1(Di,Q)−(1−λ)⋅maxDj∈Ssim2(Di,Dj)]
- λ 参数调优：λ=0.7 平衡相关性与多样性
- 作用：在保证检索结果与查询相关的前提下，惩罚与已选结果高度相似的内容，强制引入新信息
应用场景：
- 用户问"脾虚吃什么"，传统检索返回10个"山药"相关结果；MMR 重排后返回：山药、莲子、茯苓、薏米、大枣等多样化食材
- 古籍检索时，避免只返回《千金要方》的相似段落，强制引入《食疗本草》《饮膳正要》等不同来源
3 .Rerank 精准重排
模型：BAAI/bge-reranker-base
作用：把最相关的证型、病因、食疗方、禁忌依据排到顶部，作为最终生成层的输入
两阶段重排流程：
1. MMR 多样性重排：在召回阶段做多样性过滤
2. Rerank 精准排序：对精简后的条目做深度相关性排序，输出 Top-10