news 2026/5/10 23:11:57

langchain递归切片器原理分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
langchain递归切片器原理分析

机制分析

关键文件和类

文件路径:langchain_text_splitters/character.py

类名:RecursiveCharacterTextSplitter

核心入口函数:_split_text

解析步骤及源码分析

步骤说明示例/细节
1. 分隔符降级separators=["\n\n", "\n", " ", ""]顺序尝试,分隔符可自定义先用\n\n切段落,若任一段>chunk_size 字符,则对该段降级使用\n切,依次类推
2. 递归切分对“超长段”重复步骤 1,直到所有片段 ≤ chunk_size 或已用完分隔符若句子级仍超长,最终用空字符串""按字符硬切
3. 段合并(Merge)把“好段”依次拼成尽可能长的块,保证 ≤ chunk_size如果拼到再加就超chunk_size,则封口、起新块
4. 重叠(Overlap)当合并完成一个块A1之后,算法回退<=chunk_overlap的长度,以便下个块A2包含前一个块末尾overlap的内容。特别的,若块A1的最后一段长度大于chunk_overlap,则为保证语义完整,不强行生成overlap。相邻两个块 A1和A2,则 A2 头部 = A1 尾部 overlap 内容

上述步骤的总体逻辑在_split_text函数中,关键处均有代码注释说明:

def_split_text(self,text:str,separators:list[str])->list[str]:"""Split incoming text and return chunks."""final_chunks=[]# Get appropriate separator to use# 得到当前层级的分隔符separator=separators[-1]new_separators=[]fori,_sinenumerate(separators):_separator=_sifself._is_separator_regexelsere.escape(_s)if_s=="":separator=_sbreak# 快速搜索文本中是否存在分隔符,不存在,则分隔符降级ifre.search(_separator,text):separator=_s new_separators=separators[i+1:]break_separator=separatorifself._is_separator_regexelsere.escape(separator)splits=_split_text_with_regex(text,_separator,keep_separator=self._keep_separator)# Now go merging things, recursively splitting longer texts.# 所谓的“好段”指的是长度小于chunk_size的段_good_splits=[]_separator=""ifself._keep_separatorelseseparatorforsinsplits:ifself._length_function(s)<self._chunk_size:_good_splits.append(s)else:# 如果发现一个段不是好段,就把前面累积的好段做合并if_good_splits:merged_text=self._merge_splits(_good_splits,_separator)final_chunks.extend(merged_text)_good_splits=[]ifnotnew_separators:# 这里看似会生成一个超长块,但考虑到最后一个分隔符是空(亦即按字符切分),这行代码其实是跑不到的。final_chunks.append(s)else:# 对于超长段,用下级分隔符递归切分other_info=self._split_text(s,new_separators)final_chunks.extend(other_info)if_good_splits:merged_text=self._merge_splits(_good_splits,_separator)final_chunks.extend(merged_text)returnfinal_chunks

合并与重叠的逻辑则在_merge_splits函数中,关键处均有代码注释说明:

def_merge_splits(self,splits:Iterable[str],separator:str)->list[str]:# We now want to combine these smaller pieces into medium size# chunks to send to the LLM.separator_len=self._length_function(separator)docs=[]current_doc:list[str]=[]total=0# splits是所谓的好段,我们将好段尽可能拼接为较大的块fordinsplits:_len=self._length_function(d)# 拼到再加就超chunk_size,则封口、起新块if(total+_len+(separator_leniflen(current_doc)>0else0)>self._chunk_size):iftotal>self._chunk_size:logger.warning(f"Created a chunk of size{total}, "f"which is longer than the specified{self._chunk_size}")iflen(current_doc)>0:doc=self._join_docs(current_doc,separator)ifdocisnotNone:docs.append(doc)# Keep on popping if:# - we have a larger chunk than in the chunk overlap# - or if we still have any chunks and the length is long# 这一段是overlap的核心处理逻辑# 算法回退<=chunk_overlap的长度,以便下个块A2包含前一个块A1末尾overlap的内容。特别的,若块A1的最后一段长度大于chunk_overlap,则为保证语义完整,不会生成overlap。current_doc里存的就是一个块的所有段。whiletotal>self._chunk_overlapor(total+_len+(separator_leniflen(current_doc)>0else0)>self._chunk_sizeandtotal>0):total-=self._length_function(current_doc[0])+(separator_leniflen(current_doc)>1else0)current_doc=current_doc[1:]current_doc.append(d)total+=_len+(separator_leniflen(current_doc)>1else0)doc=self._join_docs(current_doc,separator)ifdocisnotNone:docs.append(doc)returndocs
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 18:23:54

屏幕文字智能提取革命:告别手动输入的新时代办公利器

屏幕文字智能提取革命&#xff1a;告别手动输入的新时代办公利器 【免费下载链接】Text-Grab Use OCR in Windows quickly and easily with Text Grab. With optional background process and popups. 项目地址: https://gitcode.com/gh_mirrors/te/Text-Grab 你是否曾经…

作者头像 李华
网站建设 2026/5/9 7:21:41

3步搭建跨平台直播聚合神器:Dart Simple Live全平台部署指南

3步搭建跨平台直播聚合神器&#xff1a;Dart Simple Live全平台部署指南 【免费下载链接】dart_simple_live 简简单单的看直播 项目地址: https://gitcode.com/GitHub_Trending/da/dart_simple_live 还在为切换不同直播平台而烦恼吗&#xff1f;Dart Simple Live&#x…

作者头像 李华
网站建设 2026/5/11 14:48:41

ChemCrow化学AI工具深度评测:智能研究的技术突破与性能分析

ChemCrow化学AI工具深度评测&#xff1a;智能研究的技术突破与性能分析 【免费下载链接】chemcrow-public Chemcrow 项目地址: https://gitcode.com/gh_mirrors/ch/chemcrow-public ChemCrow作为一款基于人工智能技术的化学任务处理平台&#xff0c;通过整合Langchain框…

作者头像 李华
网站建设 2026/5/9 23:38:09

Windows Terminal终极效率提升指南:从新手到高手的5个实用技巧

Windows Terminal终极效率提升指南&#xff1a;从新手到高手的5个实用技巧 【免费下载链接】terminal The new Windows Terminal and the original Windows console host, all in the same place! 项目地址: https://gitcode.com/GitHub_Trending/term/terminal 还在为命…

作者头像 李华
网站建设 2026/5/11 13:46:27

Unity内置着色器终极指南:版本管理与完整教程

Unity-Built-in-Shaders项目为Unity开发者提供了完整的官方内置着色器代码库&#xff0c;实现了跨版本着色器代码的集中管理和便捷访问。这个开源资源让开发者能够轻松对比不同Unity版本的着色器差异&#xff0c;为项目版本升级和兼容性维护提供了有力支持。 【免费下载链接】U…

作者头像 李华
网站建设 2026/5/10 23:29:34

分子模拟在生物制药中的应用(罕见实战案例曝光)

第一章&#xff1a;分子模拟在生物制药中的革命性角色分子模拟技术正以前所未有的速度重塑生物制药的研发范式。通过在原子级别上精确建模蛋白质、核酸与小分子之间的相互作用&#xff0c;科学家能够在计算机中预测药物分子的结合亲和力、稳定性及潜在毒性&#xff0c;大幅缩短…

作者头像 李华