Coze扣子文档解析 VS. 专业OCR工具,RAG知识库性能评测!

在 AI 技术快速落地的当下,RAG 知识库作为AI应用的一个重要分支,正在逐渐改变我们处理信息的方式,成为实现智能问答、数据分析等场景的核心架构。通过将非结构化文档转化为可检索的知识单元,RAG 系统在医疗诊断辅助、金融报告解析、教育知识问答等领域展现出强大的应用价值,使AI输出兼具专业性与实时性。

构建 RAG 知识库的起点是将原始文档转化为结构化数据库。这一过程需要处理 PDF、Word、HTML 等十余种文件格式,提取文字、表格、公式等多模态内容,并建立语义关联的向量索引。在现实环境中,大量数据以非结构化形式存在,若基础数据处理不当,形成“知识断层”,就会使后续检索环节出现关键信息遗漏。文档解析在此过程中起到了重要作用,从非结构化数据到知识库的转化,将很大程度上决定RAG系统在真实场景中的响应能力与输出可靠性。

Coze 作为国内主要的AI应用开发工具之一,是大家搭建自己的 Bot 时经常会选择的平台。常用的朋友知道,创建知识库可以选择使用 Coze 自带的文档解析,直接上传各类格式的文件,也可自行选用其他解析工具,上传经过结构化处理的 Markdown 文件。

本文中,我们将对这两种解析方式(Coze 解析 vs. 专业解析工具)下的知识库进行性能评测,揭秘解析能力对 RAG 系统的输出结果是否有显著影响,并为大家搭建个人知识库时的选品提供参考。

⭐结论速览:

  1. 根据评分结果,专业解析工具 TextIn + 按层级分段策略,知识库输出效果最佳。

  2. 知识库按目录层级进行分段,RAG 系统能获得更稳定的性能,且数据预处理时目录识别越准确,RAG 输出表现越好。

  3. 段落与表格的完整性对 RAG 结果有重要影响。

1 评测方案

1.1 解析工具介绍

我们使用两个解析工具分别是:Coze 平台解析TextIn 文档解析,一款专业的 PDF 与图像解析产品。

Coze 解析

TextIn 文档解析

1.2 测试集介绍

数据集以企业年报招股书文件为主体。原始数据集包括:年报 6 份,招股书 82 份。由于 Coze 不支持 500 页以上的 PDF 文件解析,数据集调整为:年报 6 份,招股书 67 份。

测试集包含共 322 项 QA 单问题,所有信息均来自年报与招股书文件。

1.3 评测方法

A. 知识库搭建:

首先,将数据集上传到平台,文件格式分别为:1. 原 PDF 文件,上传后 Coze 解析;2. TextIn 解析后的 .md 文件。

下一步,设置分段策略。对 Coze 解析选用两种策略进行评测:1. 自动分段;2. 按层级分段。TextIn 解析输出有明确标题层级,选用层级分段。

按上述方式完成搭建,我们共创建了 3 个知识库。

B. 模型输出:

将知识库接入一个智能体,用平台自带的模型评测,对智能体进行评测,测试结果中包含了模型的实际输出。

C. 大模型打分:

在 Coze 上创建一个专门用于打分的智能体,对原始问题、参考答案、实际输出进行综合评估。

提示词如下:

构造的用户输入如下:

【评估任务】
    问题:{question}
    参考回答:{reference}
    待评估回答:{actual}

2 评测结果

2.1 评分结果

解析方案

分段方案

平均分

0分占比

未找到/未提及

100分占比

Coze

自动分段

43.699

45.6%

122 / 37.77%

21.1%

按目录分段

42.795

51.5%

136 / 42.11%

21.4%

TextIn

按目录分段

45.342

48.7%

132 / 40.87%

26.3%

如表格所示,整体评分最优结果的知识库为TextIn解析配合目录层级分段策略。

2.2 典型解析案例

为理解评分结果,我们对原始解析输出进行了初步探查。在年报、招股书这类文件中,表格是信息集中的区域,同时也是解析中比较容易出错的难点,因此我们提取出如下典型案例。

A. 跨页表格

原文件:

Coze 解析结果:

TextIn 解析结果:

可以看到,TextIn 完成了完整的跨页表格合并,而 Coze 平台的解析则没有准确合并表头和表格内容,并将表头作为纯文本处理,从而损失了表格信息,部分原因在于,Coze 解析不能去除页眉/页脚,因此无法排除其他页面元素造成的干扰。

B. 有线表格

原文件:

Coze 解析结果:

TextIn 解析结果:

与跨页、无线表格相比,有线表格的解析难度相对较低,但在密集表格场景中仍会对解析工具造成挑战。如案例中情况,Coze 对文中表格的解析出现结构问题。

2.3 小结

综合评测情况,我们可以得到如下结论:

首先,知识库按目录层级进行分段,RAG 系统能获得更稳定的性能,且数据预处理时目录识别越准确,RAG 输出表现越好。

其次,段落与表格的完整性对 RAG 结果同样有着重要意义。典型解析案例中,我们看到了跨页识别中的表头遗失、表格结构识别错误可能造成的信息损失。

从下面的问答里,我们可以看到分段与段落完整性对 RAG 系统检索结果的影响:

如图中所示,按目录层级分段的知识库召回段落中包含简洁的高度匹配信息,而默认分段知识库则存在冗余内容,缺乏关键信息。

准确的层级识别配合更好的分段策略,能够帮助 RAG 检索召回并匹配精准的文档信息,从而大幅度提升系统性能。

本文中,我们通过横向评测,探究了文档解析能力在预处理环节对 RAG 知识库的效果影响,希望对大家的RAG搭建与选品策略有一定帮助。同时,我们期待与各位交流文档智能 Agent 搭建的经验和想法!

欢迎后台私信小助手,免费开通在线体验文档解析工具~

欢迎来交流群领取更多福利、大模型应用技术学习材料,与我们共同探讨技术发展与 AI 应用的可能性。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值