RAG系统分类、评估方法与未来方向

分享一篇RAG综述:Retrieval-Augmented Generation for Large Language Models: A Survey,主要想了解一下RAG的评估方法,分享给大家。

一、RAG分类

RAG分类:Navie RAG、Advanced RAG 、Modular RAG

  • Navie RAG是一个最简单的RAG系统,包括检索模块和生成模块。
  • Advance RAG主要在Navie RAG的pre-trievalpost-trieval上做改进,pre-trieval上的改进比如query改写,子query查询,query扩展(CoVE Chian-of-Verifiation拓展之后的查询经过LLM的验证,达到减少幻觉的作用),query路由(是否使用RAG,以及使用哪个RAG)等。post-trieval上的改进包括reranker,context压缩等。
  • Modular RAG是基于Navie RAG和Advance RAG的一种进阶的RAG,太相较于前两个RAG更加自由和灵活性。他通过引入新的模块和新的模式,实现多功能性。引入模块包括查询模块,记忆模块等,新的检索模式包括采用迭代检索、递归检索以及自适应检索。
    在这里插入图片描述

二、评估方法

  • Retrieval Quality:Metrics such as Hit Rate, MRR, and NDCG are commonly utilized for this purpose
    • MMR( Mean Reciprocal Rank 平均倒排率)是一个用于评估推荐系统排序性能的指标。它考虑了用户实际点击的推荐项在推荐列表中的位置。MRR 的计算方式是取用户的每个查询(或推荐请求)的倒(1/x)数排名的平均值。这个指标更加关注推荐项的排名,越靠前的推荐项影响越大。
    • Hits Rate(命中率)前k项中,包含正确信息的项的数目占比;
    • NDCG( Normalized Discounted Cumulative Gain 归一化折损累积增益)评估推荐系统排序性能的指标,但相比于 MRR,NDCG考虑了推荐项的相关性。它通过考虑推荐列表中每个位置上的推荐项的相关性分数,以及位置权重,计算一个归一化的累积增益。
  • Generation Quality:unlabeled and labeled content.
    • unlabeled content:faithfulness, relevance, and non-harmfulness(忠诚性,相关性,无害性)
    • labeled content:accuracy

检索和生成的各项指标都可以通过手动或者自动的方式进行评估。

  • 人工评估:人工评审员检查模型生成的文本是否与输入内容或知识库相符,确保没有显著的事实错误。
  • 自动化验证
    • 对于忠诚性,使用事实核查工具或外部数据库(如维基百科、新闻源)来验证模型的输出。
    • 对于相关性,将相关性问题转化为分类问题来自动评估。例如,可以训练一个二分类模型(相关/不相关)或多分类模型(非常相关/中等相关/不相关),然后使用该模型对模型输出进行评估。
    • 对于无害性, 使用自然语言处理(NLP)技术或训练的分类模型来检测模型输出是否包含有害内容。可以基于情感分析、恶意内容分类等进行自动评测。
      在这里插入图片描述

三、未来方向

  1. RAG仍然是需要的,有大模型的地方就会有RAG
  2. RAG的稳健性是一个未来方向==》错误的信息比没有信息更糟糕,RAG系统应该能有对反事实或者矛盾信息产生抵抗力。
  3. 面向生产的RAG:信息源泄露,信息安全,面向用户的低代码RAG。
  4. 多模态RAG:利用RAG检索图片、音视频和代码
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱睡觉的咋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值