RAG是什么?RAG综述,看这一篇就够了!

RAG(Retriever-Augmented Generation)是一种将检索与生成相结合的人工智能模型架构。

当大模型回答问题或生成文本,首先从大量文档中检索相关信息,随后再利用这些检索到的信息来生成响应或文本,从而提高预测的质量。
其主要用于知识密集型的自然语言处理任务,尤其是在需要结合外部知识库的信息生成高质量文本的场景中。

1、RAG到底是什么?

2020年,RAG这个概念第一次出现,但它真正变得流行起来,是在ChatGPT于2022年12月发布之后。之前结合ChatGPT的官方介绍,简单来说,它给大模型带来的价值可以这样理解:没用RAG技术的大模型回答问题时,就像闭卷考试;而用了RAG技术的大模型,就好比——外挂了一个知识库来开卷考试

现在大模型生成回答时有三个大问题:容易胡说八道、缺少专业知识、回答没法追根溯源。而RAG技术通过外挂专业的知识库,在回答问题时结合库里的内容,还会在结果里标明信息来自哪里,基本上把这三个问题解决了。

那RAG到底是怎么解决这三个问题的呢?

首先看看RAG的架构,总共分为建索引、做检索、内容增强、生成回答四个大步骤:

图片

1.1 索引Indexing

这一步指通过内容分块、向量化等方式,生成索引并存入向量数据库。为什么这里这么麻烦,既要分块又要做向量化处理来建索引,而不是像一些关系型数据库直接去建立索引呢?

这是核心因为2个点:

(1)大模型需要通过向量化去建立语义理解。

通过将包含高维信息的知识降维拍到向量空间里,这些知识就变成了一堆数字串;此时,当用户去提问时,先将提问的知识向量化变成一串数字后,再从知识库中通过余弦计算等方式找出和用户提问数字串最相似的信息出来,这就完成了所谓的语义理解(当然这块还有复杂的对称和不对称计算等,不做展开了)。

(2)分块能够有效提升检索效率和缓解上下文长度限制。

理想状态下,在检索时将每个信息都遍历一遍肯定就不会漏信息了,但是当信息量大且不能让用户等待过久的时候,还是需要更高效和更具性价比的方式;同时,大模型一次能输入的上下文有长度限制,虽然已经有大模型将上下文长度延伸至了更高量级,但似乎实验证明更大的上下文窗口不一定对检索结果更有效。

而分块技术,则可以理解为将一篇50w字的书籍文档按照段落或者语义等方式划分成n个块。这样,既能够有效解决上下文长度限制问题,同时也对于检索有一定的效率提升;但同时也存在可能会丢失文档的全局结构、不同块之间的前后逻辑等问题(不过这些问题都在陆续通过建立重叠上下块内容、建立块的类似索引结构等方式逐渐解决中)。

1.2 检索Retrieval

当用户提问后,通过检索技术则可以从知识库中召回相关内容块。根据2024年一篇很火的RAG论文,其将RAG划分为3大范式:原生RAG、先进RAG、模块化RAG

图片

目前2024年基本大部分厂商已经在第二步(先进RAG)这一层面了,例如Dify就有全文检索和向量检索2种模式。

图片

因此,在检索这一步,我特地画了2种混合检索来做示意,个人判断混合检索会是未来的一大趋势,因为每种检索都有其优势和弊端,只有结合才能取长补短。 而检索方式将不局限于关键词检索和向量检索,最终的形态一定是多种检索方式的结合和互补。当混合检索结束后,再通过一个Rerank的机制重新对不同渠道的检索结果做一个最终的整合和排序。

1.3 增强Augment

当重排序结束后,将生成最终前n个匹配度最高的内容块,将这些内容块与用户的查询、系统配置的prompt等做整合,一并让大模型根据这些信息生成最终的回答。

在整个完整的RAG过程中,索引和检索将极大的影响最终生成的质量。

2、RAG能帮助企业做什么?

从下述生成式AI技术应用跟踪来看,目前最常见的几大使用场景:知识助手、智能客服、数据分析等无一例外都应用到了知识库及RAG技术。

图片

当企业某一业务存在大量重复性、知识密集型且标准化较高的特征时,则可以考虑使用RAG来搭建一个问答机器人。如果是搭建基础知识问答助手,FastGPT、Dify社区版、Coze都可以很快捷地进行知识库的搭建,也有完整的FAQ支持。

以我们公司为例,产品本身专业性强所以使用门槛较高,因此搭建了围绕产品使用的问答助手

某医疗公司每年都会推出新的医疗器械、医药等,医药代表不一定能及时记忆最新的产品和细节,则可以通过新产品问答助手随时查询围绕产品的细节

而某高端社区打造了社区内部的社群服务,每天都要频繁被咨询如何创建社群、如何参加活动、停车、wifi等问题,此时他们则选择通过AI客服助手来解决重复回答效率低的问题

如今的AI问答其优势在于能够很好的理解自然语言、并很好的生成自然语言,这让对话不再显得是那么的「人工智障」和生硬(虽然又会容易存在幻觉问题,但问题总在解决的过程中嘛)。

当然,如果是搭建复杂的知识问答助手,其难点还是在于:

1、面向问答机器人使用场景下,额外所需的文档整理: 例如某企业做了一个财务助手,对于某项报销条款,不同角色能看到的内容是不同的,而这就倒逼企业对该条款进行一些元数据的二次处理

2、面向特定使用场景的索引与检索策略: 不同使用场景的前述2种策略往往有差异。

例如某产品推荐场景下,针对结构化的产品数据则不需要做内容分块,直接针对字段进行向量化和关键词检索即可;

针对某医疗问诊助手场景下的大量非结构化和疾病相关的pdf文档,则需要分块向量化;

而针对某社区提供的社群问答助手场景,其直接提供了数十个Q&A结构的文档,那自然按照原始的Q&A结构去做问题的分块,才能更好的保证最终的检索结果。

3、RAG未来将怎样发展?

2024年这一年,RAG领域出现了非常多的论文,夸张的时候一周可能有十多篇。同时,根据下图这篇报告,2024年RAG占据设计的主导地位,而提示词和微调已逐渐有些弱化掉了。这说明,RAG正处在一个大家对其充满期望和肯定的蓬勃探索期。

图片

这一年,RAG领域涌现了诸多新思路和新技术,以下列举比较热门的3个:

1、通过提炼内容结构和宏观理解等来缩减语义鸿沟:如GraphRAG、SiReRAG、RAPTOR

以GraphRAG为例,这是一种微软在24年中开源的图RAG技术,其本质上是将知识图谱和RAG做了融合。

通过利用大模型自动抽取文档内的命名实体,然后利用这些实体自动构建知识图谱。在图谱中,同样利用聚类产生实体聚集的“社区”,并利用 LLM 生成这些社区的摘要。在召回的时候,知识图谱的实体、边、以及社区摘要,它们连同原始文档一起来做混合召回。

由于这些数据同样形成了文档中跨 Chunk 的关联信息,因此对于宏观性提问,多跳提问,有着更好的效果。GraphRAG 可以看作是解决语义鸿沟的当下行之有效的策略和架构。

2、通过Agent来加强RAG:即Agentic RAG

RAG 本身是 Agent 的重要算子,它可以解锁 Agent 访问内部数据的能力;Agent 直接用于 RAG,可以提供高级 RAG 能力,这就是所谓 Agentic RAG。

在RAG的过程中,诸如该如何进行分块、该如何选择检索方式、如何选择最终召回结果、召回效果怎么样评估、基于多跳问题该如何补足等,都可以利用大模型的能力打造一个独立的Agent来实现。

3、多模态RAG

未来的 RAG 系统不仅限于文本检索,还将能够处理图像、音频等多种媒体类型。大模型将能够理解并生成包含文本、图像和声音的信息,为用户提供更丰富的互动体验。

对于RAG未来将怎样发展这个命题,我同意RAGFlow负责人的观点:

RAG 就相当于过去的数据库,对外暴露的接口无比简单,内部却无比复杂,它不仅仅包含了数据库本身,还包含了各种小模型以及把它们串接起来的工具,从本质上来说,它就是过去的企业搜索引擎在大模型时代的进化,但它又大大超出了搜索引擎本身的范畴。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

<think>嗯,用户问的是RAG是什么,我需要先回忆一下相关知识。RAG是Retrieval-Augmented Generation的缩写,对吧?那它的基本概念应该是结合了检索和生成的技术。不过我得确认一下,不能搞错了。 首先,得解释RAG的全称,Retrieval-Augmented Generation,检索增强生成。然后说明它的作用,用来提升生成模型的效果,特别是在需要外部知识的任务上,比如问答或者事实核查。这时候可能需要提到传统生成模型的局限性,比如GPT有时候会产生幻觉,生成不准确的信息,而RAG通过检索相关文档来补充信息,让生成的内容更准确可靠。 接下来,要分解RAG的工作流程,分步骤说明。第一步是检索,当用户输入问题后,系统会从外部数据库或文档集合中找到相关的信息。这里可能需要提到嵌入向量和相似度计算,比如将问题和文档都转换成向量,然后用余弦相似度之类的算法找到最相关的部分。 第二步是增强,把检索到的相关信息和原始问题一起输入生成模型,这样模型在生成回答时就有更多的上下文和依据。这样生成的答案不仅基于模型本身的参数,还结合了实际的外部数据,提高了准确性和相关性。 然后需要举一些应用场景,比如智能问答系统、客服机器人、知识库辅助工具等。这些场景下,RAG有效利用已有信息,提供更精确的回答。另外,可能还要提到它的优势,比如减少生成错误、支持动态更新知识库,不需要重新训练整个模型。 不过,可能用户对技术细节不太了解,需要用比较通俗的语言解释。比如,可以比喻成写论文时的查资料和综合整理的过程,先查找相关资料,再结合自己的理解写出内容。这样用户更容易理解。 同时,要确保提到的技术点准确,比如使用的检索机制、生成模型的结构,但不需要太深入。还要注意区分RAG和其他技术,比如微调(fine-tuning),说明RAG的不同之处在于动态检索而非静态的参数调整。 最后,可能需要提到RAG的挑战,比如检索的准确性、计算资源的消耗,以及如何处理实时性要求高的场景。但用户的问题主要是介绍,所以这部分可以简略带过,或者根据情况决定是否包含。 总结起来,回答的结构应该是:定义、工作流程(分步骤)、应用场景、优势,可能加上挑战。确保用中文,结构清晰,不用专业术语过多,让用户容易理解。</think>### RAG(检索增强生成)简介 **RAG**(Retrieval-Augmented Generation,检索增强生成)是一种结合**信息检索**与**文本生成**的技术,旨在提升生成模型在知识密集型任务中的准确性和可靠性。其核心思想是:通过动态检索外部知识库中的相关信息,辅助生成模型输出更符合事实的答案。 --- ### RAG 的核心原理 1. **检索(Retrieval)** - 当用户输入问题或请求时,系统会从**外部知识库**(如文档、数据库、网页等)中检索与问题最相关的片段。 - 检索过程通常基于**语义相似度**(例如使用嵌入向量模型计算相似性),而非简单的关键词匹配。 2. **增强(Augmentation)** - 将检索到的相关文本片段与原始问题**拼接**,形成增强后的输入。 - 例如: > 原始问题:*“量子计算的主要优势是什么?”* 检索结果:*“量子计算利用量子比特的叠加态,可并行处理大量数据...”* 增强输入:*“根据以下内容回答问题:量子计算利用量子比特的叠加态... 问题:量子计算的主要优势是什么?”* 3. **生成(Generation)** - 将增强后的输入交给生成模型(如 GPT、T5 等),输出最终答案。 - 生成模型不仅依赖自身参数中的知识,还基于检索到的外部信息,从而减少“虚构”或错误内容。 --- ### RAG 的优势 1. **准确性高** - 通过检索外部知识库,补充生成模型的内部知识盲区,减少“幻觉”(即编造事实)。 - 例如回答“2023 年诺贝尔奖得主”时,RAG 可直接检索最新数据,而传统模型可能依赖过时参数。 2. **动态更新** - 仅需更新外部知识库(如添加新文档),无需重新训练生成模型,成本低且灵活。 3. **可解释性强** - 生成答案时附带检索到的依据,方便用户验证来源(类似论文引用)。 --- ### 典型应用场景 1. **智能问答系统** - 结合企业知识库或行业文档,提供精准的客服或技术支持(如医疗、法律领域)。 2. **事实核查** - 检索权威信息,验证生成内容的真实性。 3. **学术研究辅助** - 快速定位相关文献片段,辅助撰写综述或报告。 --- ### 技术挑战 1. **检索质量依赖** - 若检索结果不相关,生成答案可能被误导。 2. **实时性要求** - 对高频更新的知识库(如新闻),需保证检索与生成的效率。 3. **长文本处理** - 检索到的长文档需有效压缩或分段,避免输入超出模型限制。 --- ### 总结 RAG 通过“先检索,再生成”的机制,将生成模型与外部知识库结合,显著提升了生成内容的准确性和可信度。它特别适用于需要**动态知识**或**专业领域**的任务,是当前大模型落地应用的重要技术之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值