langchain.text_splitter:用RecursiveCharacterTextSplitter而不是CharacterTextSplitter,解决chunk过长的问题

诸神缄默不语-个人技术博文与视频目录

这是我在想尝试实践RAG功能的时候出现的问题。
我一开始用的代码类似这样:

from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
)

但是在使用chunks = text_splitter.split_documents(documents=documents)之后会出现类似这样的警告信息:

Created a chunk of size 593, which is longer than the specified 500

那我肯定会很好奇,为什么chunk的长度会超过我规定的数值呢?
在看源码的时候我们很容易发现CharacterTextSplitter有一个入参是separator: str = "\n\n",很容易发现这个入参就是用来切分文档的分隔符。在分隔符之间的文本无论多长都不会被切开。
但是我们有时其实希望它通过多个分隔符来分割文本,大致逻辑是在这些分隔符之间也能分割文本,这个分隔符还有优先级,就是如果能用"\n\n"分的话就先不用分。这个功能如果要手写的话可以参考苏神的代码,我整理在了这篇博文中,见第一节:中文分句的解决方案
如果要在langchain中直接实现现成的TextSplitter对象,则可以用RecursiveCharacterTextSplitter类来实现,代码类似这样:

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", "。", "."],
    chunk_size=500,
    chunk_overlap=50,
)

大致逻辑就是在separators里面按顺序一个一个进行切分,如果前面的separator切分后chunk还是过长,就用后面的separator切,所以separator的顺序应该是分章 - 分节 - 分段 - 分句 - 分词这种从大到小的。按照你所想要的粒度确定最小到多少。

当然另一种情况是你并不想按照标点符号进行切分,你就是纯纯想按字数进行切分,那建议用TokenTextSplitter类。

本文撰写过程中参考的网络资料:

  1. Splitting/Chunking · langchain-ai/langchain · Discussion #3786
  2. RecursiveCharacterTextSplitter和CharacterTextSplitter代码随读 - dmesg - 博客园:这一篇有介绍了一下源码实现算法,虽然我没仔细看但是我觉得我理解的是对的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值