Coze扣子文档解析 VS. 专业OCR工具，RAG知识库性能评测！

合合技术团队

于 2025-05-21 10:00:00 发布

阅读量490

点赞数 21

文章标签： ocr 人工智能大数据算法

本文链接：https://blog.csdn.net/INTSIG/article/details/148088574

版权

在 AI 技术快速落地的当下，RAG 知识库作为AI应用的一个重要分支，正在逐渐改变我们处理信息的方式，成为实现智能问答、数据分析等场景的核心架构。通过将非结构化文档转化为可检索的知识单元，RAG 系统在医疗诊断辅助、金融报告解析、教育知识问答等领域展现出强大的应用价值，使AI输出兼具专业性与实时性。

构建 RAG 知识库的起点是将原始文档转化为结构化数据库。这一过程需要处理 PDF、Word、HTML 等十余种文件格式，提取文字、表格、公式等多模态内容，并建立语义关联的向量索引。在现实环境中，大量数据以非结构化形式存在，若基础数据处理不当，形成“知识断层”，就会使后续检索环节出现关键信息遗漏。文档解析在此过程中起到了重要作用，从非结构化数据到知识库的转化，将很大程度上决定RAG系统在真实场景中的响应能力与输出可靠性。

Coze 作为国内主要的AI应用开发工具之一，是大家搭建自己的 Bot 时经常会选择的平台。常用的朋友知道，创建知识库可以选择使用 Coze 自带的文档解析，直接上传各类格式的文件，也可自行选用其他解析工具，上传经过结构化处理的 Markdown 文件。

本文中，我们将对这两种解析方式（Coze 解析 vs. 专业解析工具）下的知识库进行性能评测，揭秘解析能力对 RAG 系统的输出结果是否有显著影响，并为大家搭建个人知识库时的选品提供参考。

⭐结论速览：

根据评分结果，专业解析工具 TextIn + 按层级分段策略，知识库输出效果最佳。

知识库按目录层级进行分段，RAG 系统能获得更稳定的性能，且数据预处理时目录识别越准确，RAG 输出表现越好。

段落与表格的完整性对 RAG 结果有重要影响。

1 评测方案

1.1 解析工具介绍

我们使用两个解析工具分别是：Coze 平台解析和 TextIn 文档解析，一款专业的 PDF 与图像解析产品。

Coze 解析

TextIn 文档解析

1.2 测试集介绍

数据集以企业年报与招股书文件为主体。原始数据集包括：年报 6 份，招股书 82 份。由于 Coze 不支持 500 页以上的 PDF 文件解析，数据集调整为：年报 6 份，招股书 67 份。

测试集包含共 322 项 QA 单问题，所有信息均来自年报与招股书文件。

1.3 评测方法

A. 知识库搭建：

首先，将数据集上传到平台，文件格式分别为：1. 原 PDF 文件，上传后 Coze 解析；2. TextIn 解析后的 .md 文件。

下一步，设置分段策略。对 Coze 解析选用两种策略进行评测：1. 自动分段；2. 按层级分段。TextIn 解析输出有明确标题层级，选用层级分段。

按上述方式完成搭建，我们共创建了 3 个知识库。

B. 模型输出：

将知识库接入一个智能体，用平台自带的模型评测，对智能体进行评测，测试结果中包含了模型的实际输出。

C. 大模型打分：

在 Coze 上创建一个专门用于打分的智能体，对原始问题、参考答案、实际输出进行综合评估。

提示词如下：

构造的用户输入如下：

【评估任务】
    问题：{question}
    参考回答：{reference}
    待评估回答：{actual}

2 评测结果

2.1 评分结果

解析方案	分段方案	平均分	0分占比	未找到/未提及	100分占比
Coze	自动分段	43.699	45.6%	122 / 37.77%	21.1%
Coze	按目录分段	42.795	51.5%	136 / 42.11%	21.4%
TextIn	按目录分段	45.342	48.7%	132 / 40.87%	26.3%

如表格所示，整体评分最优结果的知识库为TextIn解析配合目录层级分段策略。

2.2 典型解析案例

为理解评分结果，我们对原始解析输出进行了初步探查。在年报、招股书这类文件中，表格是信息集中的区域，同时也是解析中比较容易出错的难点，因此我们提取出如下典型案例。

A. 跨页表格

原文件：

Coze 解析结果：

TextIn 解析结果：

可以看到，TextIn 完成了完整的跨页表格合并，而 Coze 平台的解析则没有准确合并表头和表格内容，并将表头作为纯文本处理，从而损失了表格信息，部分原因在于，Coze 解析不能去除页眉/页脚，因此无法排除其他页面元素造成的干扰。

B. 有线表格

原文件：

Coze 解析结果：

TextIn 解析结果：

与跨页、无线表格相比，有线表格的解析难度相对较低，但在密集表格场景中仍会对解析工具造成挑战。如案例中情况，Coze 对文中表格的解析出现结构问题。

2.3 小结

综合评测情况，我们可以得到如下结论：

首先，知识库按目录层级进行分段，RAG 系统能获得更稳定的性能，且数据预处理时目录识别越准确，RAG 输出表现越好。

其次，段落与表格的完整性对 RAG 结果同样有着重要意义。典型解析案例中，我们看到了跨页识别中的表头遗失、表格结构识别错误可能造成的信息损失。

从下面的问答里，我们可以看到分段与段落完整性对 RAG 系统检索结果的影响：

如图中所示，按目录层级分段的知识库召回段落中包含简洁的高度匹配信息，而默认分段知识库则存在冗余内容，缺乏关键信息。

准确的层级识别配合更好的分段策略，能够帮助 RAG 检索召回并匹配精准的文档信息，从而大幅度提升系统性能。

本文中，我们通过横向评测，探究了文档解析能力在预处理环节对 RAG 知识库的效果影响，希望对大家的RAG搭建与选品策略有一定帮助。同时，我们期待与各位交流文档智能 Agent 搭建的经验和想法！

欢迎后台私信小助手，免费开通在线体验文档解析工具~

欢迎来交流群领取更多福利、大模型应用技术学习材料，与我们共同探讨技术发展与 AI 应用的可能性。