大模型RAG从入门到精通(四)检索增强生成评估框架

检索增强生成(RAG) 在扩展独立大型语言模型(LLM)的局限性和克服其诸多限制方面发挥了关键作用。通过整合检索器,RAG 增强了响应的相关性和事实准确性:它只需实时利用外部知识源(例如矢量文档库),并在原始用户查询或提示中添加相关的上下文信息,然后将其传递给 LLM 进行输出生成。

对于那些深入 RAG 领域的人来说,一个自然而然的问题出现了:我们如何评估这些远非简单的系统?

为此,存在几个框架,例如DeepEval,它提供了超过 14 种评估指标来评估幻觉和忠实度等标准;MLflow LLM Evaluate,以其模块化和简单性而闻名,可以在自定义管道中进行评估;RAGAs,专注于定义 RAG 管道,提供忠实度和上下文相关性等指标来计算综合的 RAGA 质量得分。

以下是这三个框架的摘要:

RAG评估框架

一、理解 RAGA

RAGA (检索增强生成评估的缩写)被认为是评估 LLM 应用的最佳工具包之一。它能够以最简单的方式——既可以单独评估,也可以作为单一流程联合评估RAG 系统组件(即检索器和生成器)的性能。

RAGA 的核心要素是其指标驱动开发(MDD) 方法,该方法依赖数据做出明智的系统决策。MDD 需要持续监控关键指标,从而清晰洞察应用程序的性能。除了允许开发人员评估其 LLM/RAG 应用程序并进行指标辅助实验外,MDD 方法还与应用程序的可重复性高度契合。

二、RAGA 组件

  • 提示对象:定义提示的结构和内容的组件,用于引出语言模型生成的响应。通过遵循一致且清晰的提示,它有助于进行准确的评估。
  • 评估样本:一个独立的数据实例,包含用户查询、生成的响应以及参考响应或基本事实(类似于 ROUGE、BLEU 和 METEOR 等 LLM 指标)。它是评估 RAG 系统性能的基本单元。
  • 评估数据集:一组评估样本,用于基于各种指标更系统地评估整个 RAG 系统的性能。其目的是全面评估系统的有效性和可靠性。

三、RAGA指标

RAGAs 提供了配置 RAG 系统指标的功能,通过定义检索器和生成器的特定指标,并将它们混合成整体 RAGAs 分数,如下图所示:

img

让我们了解一下事物检索和生成方面的一些最常见的指标。

1. 检索性能指标:

  • 上下文回忆率:

    回忆率衡量的是知识库中检索到的相关文档在真实 Top-K 结果中所占的比例,即检索到的与问题答案最相关的文档数量是多少?它的计算方法是将检索到的相关文档数量除以相关文档总数。

  • 上下文精度:

    在检索到的文档中,有多少与提示相关,而不是噪音?上下文精度可以回答这个问题,其计算方法是将检索到的相关文档数除以检索到的文档总数。

2. 生成性能指标:

  • 忠实度:

    它评估生成的响应是否与检索到的证据相符,换句话说,就是响应的事实准确性。这通常通过比较响应和检索到的文档来完成。

  • 上下文相关性:

    此指标决定生成的响应与查询的相关性。它通常基于人工判断或通过自动语义相似度评分(例如余弦相似度)计算得出。

作为连接 RAG 系统两个方面(检索和生成)的示例指标,我们有:

  • 上下文利用率:

    这评估了 RAG 系统如何有效地利用检索到的上下文来生成其响应。即使检索器获取了极好的上下文(高准确率和记忆),性能较差的生成器也可能无法有效地利用它。上下文利用率的提出正是为了捕捉这种细微差别。

在 RAGAs 框架中,各个指标会被组合起来,计算出一个RAGAs 的总体得分,从而全面量化 RAG 系统的性能。计算此得分的过程包括:选择相关指标并计算它们,将它们标准化为在同一范围内变动(通常为 0-1),然后计算这些指标的加权平均值。权重的分配取决于每个用例的优先级,例如,在需要高度事实准确性的系统中,确保信息的忠实性和准确性确实至关重要。当处理或提供信息时,尤其是涉及到具体数据、日期、事件等事实性内容时,优先考虑信息的真实性而非仅仅追求快速的回忆或检索能力是十分必要的。这样可以保证提供的信息更加可靠,减少错误信息传播的风险。


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值