大模型RAG从入门到精通（四）检索增强生成评估框架

大模型面试

于 2025-05-10 09:00:00 发布

阅读量405

点赞数 16

文章标签：自然语言处理 agi 大模型 LLM ai RAG 检索增强生成

本文链接：https://blog.csdn.net/Code1994/article/details/147826147

版权

检索增强生成(RAG) 在扩展独立大型语言模型(LLM)的局限性和克服其诸多限制方面发挥了关键作用。通过整合检索器，RAG 增强了响应的相关性和事实准确性：它只需实时利用外部知识源（例如矢量文档库），并在原始用户查询或提示中添加相关的上下文信息，然后将其传递给 LLM 进行输出生成。

对于那些深入 RAG 领域的人来说，一个自然而然的问题出现了：我们如何评估这些远非简单的系统？

为此，存在几个框架，例如DeepEval，它提供了超过 14 种评估指标来评估幻觉和忠实度等标准；MLflow LLM Evaluate，以其模块化和简单性而闻名，可以在自定义管道中进行评估；RAGAs，专注于定义 RAG 管道，提供忠实度和上下文相关性等指标来计算综合的 RAGA 质量得分。

以下是这三个框架的摘要：

RAG评估框架

一、理解 RAGA

RAGA （检索增强生成评估的缩写）被认为是评估 LLM 应用的最佳工具包之一。它能够以最简单的方式——既可以单独评估，也可以作为单一流程联合评估RAG 系统组件（即检索器和生成器）的性能。

RAGA 的核心要素是其指标驱动开发(MDD) 方法，该方法依赖数据做出明智的系统决策。MDD 需要持续监控关键指标，从而清晰洞察应用程序的性能。除了允许开发人员评估其 LLM/RAG 应用程序并进行指标辅助实验外，MDD 方法还与应用程序的可重复性高度契合。

二、RAGA 组件

提示对象：定义提示的结构和内容的组件，用于引出语言模型生成的响应。通过遵循一致且清晰的提示，它有助于进行准确的评估。
评估样本：一个独立的数据实例，包含用户查询、生成的响应以及参考响应或基本事实（类似于 ROUGE、BLEU 和 METEOR 等 LLM 指标）。它是评估 RAG 系统性能的基本单元。
评估数据集：一组评估样本，用于基于各种指标更系统地评估整个 RAG 系统的性能。其目的是全面评估系统的有效性和可靠性。

三、RAGA指标

RAGAs 提供了配置 RAG 系统指标的功能，通过定义检索器和生成器的特定指标，并将它们混合成整体 RAGAs 分数，如下图所示：

让我们了解一下事物检索和生成方面的一些最常见的指标。

1. 检索性能指标：

上下文回忆率：

回忆率衡量的是知识库中检索到的相关文档在真实 Top-K 结果中所占的比例，即检索到的与问题答案最相关的文档数量是多少？它的计算方法是将检索到的相关文档数量除以相关文档总数。
上下文精度：

在检索到的文档中，有多少与提示相关，而不是噪音？上下文精度可以回答这个问题，其计算方法是将检索到的相关文档数除以检索到的文档总数。

2. 生成性能指标：

忠实度：

它评估生成的响应是否与检索到的证据相符，换句话说，就是响应的事实准确性。这通常通过比较响应和检索到的文档来完成。
上下文相关性：

此指标决定生成的响应与查询的相关性。它通常基于人工判断或通过自动语义相似度评分（例如余弦相似度）计算得出。

作为连接 RAG 系统两个方面（检索和生成）的示例指标，我们有：

上下文利用率：

这评估了 RAG 系统如何有效地利用检索到的上下文来生成其响应。即使检索器获取了极好的上下文（高准确率和记忆），性能较差的生成器也可能无法有效地利用它。上下文利用率的提出正是为了捕捉这种细微差别。

在 RAGAs 框架中，各个指标会被组合起来，计算出一个RAGAs 的总体得分，从而全面量化 RAG 系统的性能。计算此得分的过程包括：选择相关指标并计算它们，将它们标准化为在同一范围内变动（通常为 0-1），然后计算这些指标的加权平均值。权重的分配取决于每个用例的优先级，例如，在需要高度事实准确性的系统中，确保信息的忠实性和准确性确实至关重要。当处理或提供信息时，尤其是涉及到具体数据、日期、事件等事实性内容时，优先考虑信息的真实性而非仅仅追求快速的回忆或检索能力是十分必要的。这样可以保证提供的信息更加可靠，减少错误信息传播的风险。