news 2026/4/15 15:17:45

深度解析 Max-Min 语义分块策略对 RAG 的重构与优化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度解析 Max-Min 语义分块策略对 RAG 的重构与优化

摘要

在检索增强生成(RAG)系统的构建过程中,文档分块(Chunking)的质量直接决定了检索的精度与生成内容的连贯性。传统的固定长度或基于结构的分割方法,往往因忽略文本内在语义逻辑而导致上下文断裂或噪声引入。今天一起看下论文《Max–Min semantic chunking of documents for RAG application》,看下动态语义分块算法——Max-Min 语义分块,如何作用提升 RAG 性能的底层优化。


1. RAG 的分块困境

RAG 系统的高效运行依赖于一个核心假设:检索到的 Top-K 文档片段应包含回答问题所需的完整且纯净的语义信息。然而,实现这一假设的基石——文档分块,却长期面临以下技术挑战:

  • 语义断裂 (Semantic Fragmentation):固定长度(如每 500 tokens 一块)的分割,往往在句子中间或逻辑转折处生硬切断,导致检索到的片段失去关键上下文。
  • 上下文噪声 (Contextual Noise):过大的块虽然包含更多背景,但也引入了大量不相关信息,干扰 LLM 的注意力。
  • 固定窗口的局限 (Fixed-Window Limitations):现有的语义分块方法(如 LlamaIndex 的语义切分器)通常采用固定大小的滑动窗口来比较句子组,难以处理插入语、引用或脚注等非线性的文本结构。

2. 超越固定窗口:语义分块的范式演进

为了解决上述问题,业界提出了语义分块 (Semantic Chunking)。其演进路径如下:

  1. 基于相似度的滑动窗口:通过滑动窗口计算相邻句子间的余弦相似度,相似度低于阈值时切分。
  2. 百分比/分位数切分:不再依赖固定阈值,而是根据文档整体相似度分布的百分位来决定边界。
  3. Max-Min 动态聚类(本文重点):将分块视为一种尊重时间顺序的动态聚类问题。它不再使用固定窗口,而是通过评估新句子与当前已形成分块(Cluster)的整体契合度,动态决定边界。

3. 深度解析:Max-Min 语义分块设计方案

Max–Min 语义分块的核心在于:它不仅考虑新句子与前一个句子的局部相似度,更考虑其与当前分块内所有句子的全局一致性。

3.1 核心思想:作为动态聚类的分块

算法将分块过程抽象为:按顺序处理句子s1,s2,…,sns_1, s_2, \dots, s_ns1,s2,,sn,对每个句子sks_ksk,决定是将其加入当前分块CCC,还是开启一个新分块。这种方法保留了文档的线性结构(Temporal Nature),确保分块内的句子是连续的。

3.2 逻辑结构:Max-Min 相似度策略

算法通过两个关键指标进行决策:

  1. 块内最小相似度 (min_sim(C)min\_sim(C)min_sim(C))
    衡量当前块CCC内最不相似的两个句子之间的距离,代表了该块的“容忍度底线”。
    min_sim(C)=min⁡s,t∈Csimcos⁡(E(s),E(t))min\_sim(C) = \min_{s,t \in C} \text{sim}_{\cos}(E(s), E(t))min_sim(C)=s,tC

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 15:16:53

如何实现飞书文档一键批量迁移:零基础完整教程

如何实现飞书文档一键批量迁移:零基础完整教程 【免费下载链接】feishu-doc-export 项目地址: https://gitcode.com/gh_mirrors/fe/feishu-doc-export 在当今数字化办公环境中,文档迁移和批量处理已成为企业日常运营的重要环节。当公司决定更换办…

作者头像 李华
网站建设 2026/4/15 15:12:45

论证类(归因论证)

目录一. 概述二. 对比实验归因(一)另有他因质疑(把水搅浑)1. 另有他因2. “继发关联”的另有他因3. 利用分组正确找到另有他因选项(二)因果倒置1. 因果倒置和另有他因力度比较(三)否…

作者头像 李华
网站建设 2026/4/10 17:30:06

十六、公文写作(调研报告)

目录一. 审题二. 粗读三. 精读\quad一. 审题 \quad调研报告的开头记得加上调研方式和对象 \quad二. 粗读 \quad\quad\quad\quad\quad\quad\quad深耕深翻问题 大量使用化肥 保护性耕作 缺乏有效再利用 盗挖售卖 \quad三. 精读 \quad\quad\quad过度深耕深挖 \quad\quad\quad\quad…

作者头像 李华
网站建设 2026/4/13 4:37:55

DroidCam OBS插件:让手机摄像头秒变专业直播设备

还在为昂贵的直播设备发愁吗?想要获得高清流畅的直播效果却预算有限?DroidCam OBS插件将彻底改变你的直播方式!这款开源工具让普通安卓手机摄像头瞬间升级为专业级直播设备,通过OBS Studio实现完美的视频流传输。无论你是Windows、…

作者头像 李华
网站建设 2026/4/7 12:52:15

终极B站体验升级指南:5个免费插件告别观看烦恼

终极B站体验升级指南:5个免费插件告别观看烦恼 【免费下载链接】Bilibili-Evolved 强大的哔哩哔哩增强脚本 项目地址: https://gitcode.com/gh_mirrors/bi/Bilibili-Evolved 还在为B站的默认体验而烦恼吗?每次打开视频都要手动切换画质&#xff0…

作者头像 李华
网站建设 2026/4/8 14:53:54

9.数据库集成

本片文章介绍如何在 .NET Aspire 框架下集成主流数据库系统,包括 SQL Server、PostgreSQL、Redis 和 MongoDB。内容涵盖从 AppHost 资源声明、客户端连接配置,到使用 Entity Framework Core 进行数据建模与迁移管理的完整流程。此外,还介绍了…

作者头像 李华