在 AI 技术快速落地的当下,RAG 知识库作为AI应用的一个重要分支,正在逐渐改变我们处理信息的方式,成为实现智能问答、数据分析等场景的核心架构。通过将非结构化文档转化为可检索的知识单元,RAG 系统在医疗诊断辅助、金融报告解析、教育知识问答等领域展现出强大的应用价值,使AI输出兼具专业性与实时性。
构建 RAG 知识库的起点是将原始文档转化为结构化数据库。这一过程需要处理 PDF、Word、HTML 等十余种文件格式,提取文字、表格、公式等多模态内容,并建立语义关联的向量索引。在现实环境中,大量数据以非结构化形式存在,若基础数据处理不当,形成“知识断层”,就会使后续检索环节出现关键信息遗漏。文档解析在此过程中起到了重要作用,从非结构化数据到知识库的转化,将很大程度上决定RAG系统在真实场景中的响应能力与输出可靠性。
Coze 作为国内主要的AI应用开发工具之一,是大家搭建自己的 Bot 时经常会选择的平台。常用的朋友知道,创建知识库可以选择使用 Coze 自带的文档解析,直接上传各类格式的文件,也可自行选用其他解析工具,上传经过结构化处理的 Markdown 文件。
本文中,我们将对这两种解析方式(Coze 解析 vs. 专业解析工具)下的知识库进行性能评测,揭秘解析能力对 RAG 系统的输出结果是否有显著影响,并为大家搭建个人知识库时的选品提供参考。
⭐结论速览:
根据评分结果,专业解析工具 TextIn + 按层级分段策略,知识库输出效果最佳。
知识库按目录层级进行分段,RAG 系统能获得更稳定的性能,且数据预处理时目录识别越准确,RAG 输出表现越好。
段落与表格的完整性对 RAG 结果有重要影响。
1 评测方案
1.1 解析工具介绍
我们使用两个解析工具分别是:Coze 平台解析和 TextIn 文档解析,一款专业的 PDF 与图像解析产品。
Coze 解析
TextIn 文档解析
1.2 测试集介绍
数据集以企业年报与招股书文件为主体。原始数据集包括:年报 6 份,招股书 82 份。由于 Coze 不支持 500 页以上的 PDF 文件解析,数据集调整为:年报 6 份,招股书 67 份。
测试集包含共 322 项 QA 单问题,所有信息均来自年报与招股书文件。
1.3 评测方法
A. 知识库搭建:
首先,将数据集上传到平台,文件格式分别为:1. 原 PDF 文件,上传后 Coze 解析;2. TextIn 解析后的 .md 文件。
下一步,设置分段策略。对 Coze 解析选用两种策略进行评测:1. 自动分段;2. 按层级分段。TextIn 解析输出有明确标题层级,选用层级分段。
按上述方式完成搭建,我们共创建了 3 个知识库。
B. 模型输出:
将知识库接入一个智能体,用平台自带的模型评测,对智能体进行评测,测试结果中包含了模型的实际输出。
C. 大模型打分:
在 Coze 上创建一个专门用于打分的智能体,对原始问题、参考答案、实际输出进行综合评估。
提示词如下:
构造的用户输入如下:
【评估任务】
问题:{question}
参考回答:{reference}
待评估回答:{actual}
2 评测结果
2.1 评分结果
解析方案 | 分段方案 | 平均分 | 0分占比 | 未找到/未提及 | 100分占比 |
---|---|---|---|---|---|
Coze | 自动分段 | 43.699 | 45.6% | 122 / 37.77% | 21.1% |
按目录分段 | 42.795 | 51.5% | 136 / 42.11% | 21.4% | |
TextIn | 按目录分段 | 45.342 | 48.7% | 132 / 40.87% | 26.3% |
如表格所示,整体评分最优结果的知识库为TextIn解析配合目录层级分段策略。
2.2 典型解析案例
为理解评分结果,我们对原始解析输出进行了初步探查。在年报、招股书这类文件中,表格是信息集中的区域,同时也是解析中比较容易出错的难点,因此我们提取出如下典型案例。
A. 跨页表格
原文件:
Coze 解析结果:
TextIn 解析结果:
可以看到,TextIn 完成了完整的跨页表格合并,而 Coze 平台的解析则没有准确合并表头和表格内容,并将表头作为纯文本处理,从而损失了表格信息,部分原因在于,Coze 解析不能去除页眉/页脚,因此无法排除其他页面元素造成的干扰。
B. 有线表格
原文件:
Coze 解析结果:
TextIn 解析结果:
与跨页、无线表格相比,有线表格的解析难度相对较低,但在密集表格场景中仍会对解析工具造成挑战。如案例中情况,Coze 对文中表格的解析出现结构问题。
2.3 小结
综合评测情况,我们可以得到如下结论:
首先,知识库按目录层级进行分段,RAG 系统能获得更稳定的性能,且数据预处理时目录识别越准确,RAG 输出表现越好。
其次,段落与表格的完整性对 RAG 结果同样有着重要意义。典型解析案例中,我们看到了跨页识别中的表头遗失、表格结构识别错误可能造成的信息损失。
从下面的问答里,我们可以看到分段与段落完整性对 RAG 系统检索结果的影响:
如图中所示,按目录层级分段的知识库召回段落中包含简洁的高度匹配信息,而默认分段知识库则存在冗余内容,缺乏关键信息。
准确的层级识别配合更好的分段策略,能够帮助 RAG 检索召回并匹配精准的文档信息,从而大幅度提升系统性能。
本文中,我们通过横向评测,探究了文档解析能力在预处理环节对 RAG 知识库的效果影响,希望对大家的RAG搭建与选品策略有一定帮助。同时,我们期待与各位交流文档智能 Agent 搭建的经验和想法!
欢迎后台私信小助手,免费开通在线体验文档解析工具~
欢迎来交流群领取更多福利、大模型应用技术学习材料,与我们共同探讨技术发展与 AI 应用的可能性。