使用RAG技术构建企业级文档问答系统之基础流程

最新推荐文章于 2025-04-01 20:05:15 发布

知世不是芝士

最新推荐文章于 2025-04-01 20:05:15 发布

阅读量1.7k

点赞数 29

文章标签：人工智能 ai大模型大语言模型 langchain ollama RAG 计算机技术

本文链接：https://blog.csdn.net/python122_/article/details/141183381

版权

1 概述

本文是本系列（使用RAG技术构建企业级文档问答系统）的第二篇，将介绍检索增强生成（Retrieval Augmented Generation，简称RAG）最基础流程。

所谓检索增强生成，是大语言模型兴起之后发展迅速的一个应用领域，简单说就是，这项技术，可以根据用户输入的问题，从文档（如PDF、Word、PPT、TXT、网页等）中自动检索跟问题相关的文本片段（或称为知识片段、上下文），然后将一段指令、用户输入的问题、文本片段拼装成一个Prompt（也就是大语言模型的输入），让大语言模型生成一个回答。

在ChatGPT最初发布的时候，回答问题主要还是依赖ChatGPT训练时的知识，由此导致了三个显著问题：

知识陈旧：也就是新发生的事情，它是没办法回答的
幻觉：也就是编造与事实不符的回答
没有办法让ChatGPT基于自己独有的，如个人积累的或者企业内部积累的知识文档回答问题，只能基于已经公开的信息回答

根据RAG所检索对象的不同，大致可以分成2类，但底层的技术其实是高度相似的：

知识库问答：主要是检索企业内部一系列文档，比如Word、PDF、Wiki、Confluence等，或者企业自建的知识管理平台。很多企业其实积累了非常多的内部文档，传统方式只能使用关键词，或者特定类目检索，效率低下，使用RAG后可以高效快速地直接返回答案，当然这个地方也有它自己的坑，先按下不表，后面有机会再细谈
联网搜索问答：这个主要是检索整个互联网，最典型代表就是Perplexity，国内的典型产品像秘塔AI搜索、天工AI、360AI搜索等，其实也是检索文档，但会首先借助搜索引擎API，获取一个网页列表，然后再对每个网页执行加载、切分、向量化操作。
上面反复提到了知识库，在RAG的流程中，知识库会经历下面4个步骤处理，如下图所示：
加载：可以简单理解成把文档读取成字符串
切分：按照特定长度，把文档切分成文本片段，做这一步是因为，后面要使用向量模型将切分后的文本片段（其实就是段落或者句子）转换成向量，由于向量模型输入长度限制，所以这一步必须按照特定长度切分
向量化：这一步会使用一个向量模型，将一个句子转换成一个向量，跟word2vec模型其实不是一个东西，word2vec模型是把一个字符或者一个词，转换成一个向量，而在RAG中说的向量模型，是把句子转换成向量，这样后续就可以使用向量计算，来比较句子之间的相似性，所谓RAG中的检索，很大程度是依赖向量，所以这块很重要
向量存储：这一步一般会使用向量库存储向量化好的文本片段，以及一些元数据信息，如文件名、ID之类的，向量库是类似MySQL、PostgreSQL一样的一个数据库，只不过它专注于存储向量，典型的有Milvus、FAISS、Chroma、Qdrant、Pinecone、Weatiate、PGVector等