使用LangChain建立检索增强生成（RAG）系统

大模型面试

于 2024-11-12 10:23:04 发布

阅读量1.4k

点赞数 18

文章标签： langchain 人工智能 AI大模型大模型 ai RAG agi

本文链接：https://blog.csdn.net/Code1994/article/details/143702971

版权

LLM 支持的最强大的应用程序之一是复杂的问答 (Q&A) 聊天机器人。这些应用程序可以回答有关特定源信息的问题。这些应用程序使用一种称为检索增强生成 (RAG) 的技术。

本教程将展示如何基于文本数据源构建一个简单的问答应用程序。在此过程中，我们将介绍典型的问答架构。

一、什么是 RAG？

RAG是一种通过附加数据增强 LLM 知识的技术。

LLM 可以推理广泛的主题，但它们的知识仅限于在训练它们的特定时间点之前的公共数据。如果你想构建能够推理私有数据或模型截止日期后引入的数据的 AI 应用程序，则需要使用模型所需的特定信息来增强模型的知识。将适当的信息引入和插入模型提示的过程称为检索增强生成（Retrieval Augmented Generation）。

LangChain 有许多组件旨在帮助构建问答应用程序，以及更普遍的 RAG 应用程序。

注意：这里我们专注于非结构化数据的问答。如果你对结构化数据的 RAG 感兴趣，我将在后续介绍关于通过 SQL 数据进行问答的教程。

典型的 RAG 应用程序有两个主要组件：

索引：从源中提取数据并对其进行索引的管道。这通常是离线进行的。
检索和生成：实际的 RAG 链，它在运行时接受用户查询并从索引中检索相关数据，然后将其传递给模型。

从原始数据到答案的最常见完整序列如下所示：

索引

加载：首先，我们需要加载数据。这是通过文档加载器完成的。
拆分：文本拆分器将大型文档拆分成较小的块。这对于索引数据和将其传递到模型中都很有用，因为大块更难搜索，并且不适合模型的有限上下文窗口。
存储：我们需要某个地方来存储和索引我们的拆分，以便以后可以搜索它们。这通常使用 VectorStore 和 Embeddings 模型来完成。

检索和生成

4. 检索：给定用户输入，使用检索器从存储中检索相关文本块。

5. 生成：ChatModel/LLM 使用包含问题和检索到的数据的提示生成答案。

在这里插入图片描述

二、准备工作

首先我们需要设定一下 LLM：

在这里插入图片描述

然后我们还需要 embedding model，即嵌入模型：

为了节约成本，我使用了 BGE 系列的开源模型。

我还使用了 Qdrant 向量数据库。

接下来，我们将按照上面的步骤来学习如何使用 LangChain 搭建一个 RAG 系统。

三、索引：加载

LangChain 本身提供的 DocumentLoader 不多，我们可以选择社区贡献的 PDF DocumentLoader：

可以看到，我们得到了 Document 对象的列表。Document 对象包含 page_content (str) 和元数据 (dict) ：

docs 列表的长度就表示 PDF 文档的页数。可以理解为每页一个 Document 对象。

LangChain 官方提供了很多集成的 DocumentLoader：

https://python.langchain.com/docs/integrations/document_loaders/

四、索引：拆分

许多 LLM 的上下文窗口只有 8-32k。即使现在有超长上下文窗口的 LLM，但是模型也很难在几千字甚至几万字的文档输入中找到信息。

为了解决这个问题，我们将文档拆分成块以进行嵌入和向量存储。这应该有助于我们在运行时仅检索与文章中最相关的部分。

在这种情况下，我们将 Document 对象拆分成 1000 个字符的块，块之间有 200 个字符的重叠。重叠有助于减轻将语句与与其相关的重要上下文分离的可能性。我们使用 RecursiveCharacterTextSplitter，它将使用常用分隔符（如换行符）递归拆分文档，直到每个块的大小合适。这是针对一般文本用例的推荐文本拆分器。

我们设置 add_start_index=True，以便每个拆分文档在初始文档中开始的字符索引保留为元数据属性“start_index”。

五、索引：存储

现在我们需要索引 13 个文本块，以便我们可以在运行时搜索它们。最常见的方法是使用嵌入模型生成每个文本块内容的嵌入向量，并将这些嵌入向量插入到向量数据库中。当我们想要搜索我们的文本块时，我们首先生成查询的嵌入向量，然后执行某种“相似性”搜索，以识别与我们的查询嵌入向量最相似的文本嵌入向量。最简单的相似性度量是余弦相似性。