如何选择Embedding Model？关于嵌入模型的10个思考-CSDN博客

本文链接：https://blog.csdn.net/wireless_com/article/details/147843810

在大模型应用中，尤其基于RAG框架的大模型应用，嵌入模型（embedding Model）是不可或缺的关键组件。这里总结了笔者在实践中关于潜入模型的10个思考，希望对大家有所帮助。

1. 嵌入模型在RAG中的重要性

嵌入模型能够将文本转换成数值形式的向量，这让计算机可以更高效地处理、对比和检索信息。这些向量能够捕捉单词、短语甚至是整篇文档之间的意义联系，这使得嵌入模型成为了各种自然语言处理任务中的关键工具。

在检索增强生成（RAG）系统中，嵌入模型扮演着核心角色，它负责从知识库中找出并排序与用户查询最相关的信息。当用户提出问题时，嵌入模型通过比较文本向量来寻找最匹配的文档。选择合适的嵌入模型对于确保检索结果既准确又有意义至关重要，这样最终生成的回答也会更加精准和有用。

举个例子，在法律领域的RAG系统中，如果使用了专门针对法律术语训练的嵌入模型，那么系统就能更好地找到与查询相关的法律文件，并保证引用的判例法资料既准确又贴切上下文。这种精确性对于需要高度专业性和准确性的工作场景来说尤为重要，比如法律研究或医疗文献分析等。通过这种方式，嵌入模型不仅提升了信息检索的质量，还增强了整个系统的实用性。

2. 嵌入模型结构中对上下文的处理方式

上下文窗口指的是嵌入模型一次性能够处理的最大文本量，即它可以考虑的单词或子单词的数量。这个参数影响着模型在生成文本表示时能涵盖多少内容。

较大的上下文窗口意味着模型可以处理更长的段落而不用担心信息被截断。这对于需要理解长篇文档的任务非常重要，比如分析研究论文、法律文件或是学术成绩单。

举个例子，在进行语义搜索时，如果模型的上下文窗口较小，它可能会错过文档后面部分的重要信息。相反，拥有较大上下文窗口的模型则能够捕捉到整个文档中的广泛含义，从而提供更加准确的搜索结果。

实际上，不同的模型支持不同的上下文长度。一些较老的模型可能仅限于处理512个标记，但更新的模型已经能够处理数千个标记了，这使得它们非常适合处理复杂任务，如总结长篇文章或从详细的文档中提取信息。

基于Transformer的嵌入模型（如BERT）与传统的循环神经网络（RNNs）不同，并不具备内在的顺序感知能力。为了弥补这一点，这些模型使用位置嵌入来记录每个词的位置信息：

绝对位置嵌入：直接为序列中的每个标记赋予一个特定的位置值（例如，BERT采用正弦函数来实现这一目标），这样模型就能了解每个词在句子中的具体位置。
相对位置嵌入：不是关注词语的具体位置，而是关注词语之间的相对距离（例如，T5模型采用了这种方法）。这种方法有助于更好地理解词语间的相互关系，而不是单纯依赖于它们出现的顺序。

这种对词序的精确捕捉对于处理长文本尤其重要，因为它确保了即使是文档中相隔较远的词也能被正确地理解和关联起来，这对于提高文本检索和文档排序的准确性至关重要。通过这种方式，模型不仅能够理解单个词语的意义，还能把握整个文档的结构和逻辑。

3. Tokenization机制对嵌入模型的影响

Tokenization是指将文本切分成较小单元的过程，这些单元被称为标记，可以是单个单词、单词的一部分甚至是单个字符。这是嵌入模型处理文本前的一个重要预处理步骤，因为它直接关系到文本如何被转换成数值形式。

不同的Tokenization方法对嵌入模型处理各种文本的效果有很大影响：

单词级Tokenization：这种方法把每个单词视为一个单独的标记。然而，它在处理新造词或罕见词汇时会遇到困难，因为这些词可能不在模型已知的词汇表中。
子词Tokenization（如Byte-Pair Encoding或WordPiece）：这种技术会将单词分解成更小的部分或者子词。例如，“unhappiness”可能会被拆分成“un”、“happi”和“ness”。这种方式让模型能够更好地应对词汇表之外的单词，因此在现代模型中非常流行。它巧妙地平衡了词汇表大小与灵活性，使得模型能处理从日常用语到专业术语在内的广泛词汇，而不会使词汇表变得过大。
字符级Tokenization：这里每个字符都被当作一个单独的标记。这种方法对于那些形态复杂但可以通过较少字符表达的语言特别有用，尽管这样做会使序列变得更长。

选择合适的Tokenization方法对于嵌入模型能否有效地处理特定领域的语言、专业术语或多语言文本至关重要。比如，在医疗保健领域应用中，使用子词级别的Tokenization方法就显得尤为重要，这样可以确保模型准确理解和处理像“心肌梗死”这样的专业术语。正确选择标记化策略有助于提高模型性能，使其更适合特定的应用场景。

4. 嵌入模型维数对性能影响

维数指的是模型为每个嵌入生成的数值数量，它决定了这些向量能包含多少信息。

低维嵌入（比如128或256维）计算效率高，处理速度快，但可能在表达语义上不如高维嵌入那样细腻，这可能会在某些任务中影响准确性。适合那些对速度和效率要求较高的场景。
高维嵌入（如768或1024维）能够捕捉更加微妙的语义关系，提供更强大的表达能力。然而，它们需要更多的计算资源和内存支持，这意味着更高的成本和较慢的处理速度。高维嵌入可以更精细地表达文本的意义，但在资源有限的情况下使用会面临挑战。

对于超过1024维这样的极高维度嵌入，虽然提供了非常丰富的语义表示，但也带来了一些问题：

增加的计算成本
：存储和处理这些高维向量需要更多的内存和更强的计算能力。
维数灾难
：随着维度的增加，在高维空间中比较相似性变得困难，因为距离间的差异难以区分。
较慢的检索时间
：如果不进行优化，搜索大型嵌入数据库将变得相当耗时。

为了应对这些问题，有几种缓解策略：

使用降维技术，例如PCA（主成分分析）或t-SNE，可以在保留关键信息的同时减少计算负担。
采用高效的矢量搜索技术，像FAISS（Facebook AI最近邻搜索）或HNSW（分级导航小世界），可以显著加快检索速度。

选择合适的维数取决于具体的应用需求。对于实时应用，如聊天机器人或语音助手，低维嵌入通常是更好的选择，因为这类场景更看重速度和效率。而对于文档相似性分析等需要高度精确的任务，更高维度的嵌入则更为合适，因为它能确保对复杂文本内容的更精准描述。这样，通过权衡不同维度带来的利弊，可以根据实际需求找到最合适的解决方案。

5. 词汇量大小对嵌入模型的影响

嵌入模型的词汇表大小决定了它能识别和处理的独特单词或标记的数量。一个更大的词汇表可以提升模型的准确性，因为它能理解更广泛的单词，包括特定领域的术语和多种语言表达。但是，这也意味着需要更多的内存和计算资源。

大词汇表的优势：拥有较大的词汇表让模型能够更好地理解和表示各种各样的单词，尤其是那些领域特有的术语或是来自不同语言的词汇。这对于像科学研究或多语言文献检索这样的应用场景尤为重要，因为它们经常需要处理大量的专业术语或跨语言信息。
小词汇表的情况：如果词汇表较小，则可以减少所需的内存并加快处理速度。然而，这可能导致模型在遇到不常见的单词或者特定领域的术语时表现不佳。

举个例子，在生物医学领域的自然语言处理模型中，为了精确地理解和使用医学术语，一个较大的词汇表是必不可少的。另一方面，对于客户服务聊天机器人来说，由于它们主要处理的是日常对话中的常见问题，因此一个小一些的词汇表就足够了，并且还能保证响应的速度和效率。

总结来说，当你的应用涉及到广泛的主题、多种语言或者是包含大量专业术语的内容时，选择一个较大的词汇表会更有利。但要注意的是，这样做也会增加对内存的需求，这在资源有限的情况下可能成为一个挑战。因此，在选择模型时，你需要根据具体的使用场景来平衡词汇表大小与资源限制之间的关系。

6. 训练数据对嵌入模型的影响

开发嵌入模型时所用的训练数据对其性能有着重大影响，因为这决定了模型能理解什么样的语言和知识范畴。

如果一个模型是基于广泛的一般性互联网资料（比如维基百科、新闻文章）进行训练的，它在日常对话中可能会表现得不错，但在金融、法律或医学这样的专业领域可能就力不从心了。相反，如果模型是在特定领域的数据集上训练的，例如针对医疗保健应用的医学期刊，那么它在这个特定领域内的表现就会更加出色。

训练数据的质量与多样性对于模型的表现至关重要。高质量且多样化的训练数据能够显著提升模型的知识水平和处理能力。

对特定领域数据进行微调可以增强嵌入模型的专业术语理解和语境细微差别的把握。这样做带来的好处包括：

提高检索精度
：模型能更准确地找到符合查询意图的文档。
更好地掌握术语
：学习并理解那些在通用模型中未被充分表示的领域特定术语。
减少偏见
：通过微调可以减少通用模型中存在的各种偏见问题。

举例来说，一个法律文献检索系统通过使用经过法律文本微调的模型，可以从法律判例法和法规中受益，确保搜索结果与法律相关，而非泛泛的一般信息。

因此，在选择嵌入模型时，必须考量其训练数据是否与预期的应用场景相匹配。比如，构建法律文献检索系统的团队应该选用那些已经接受过法律案例和法规训练的模型，以保证搜索结果的精准度和适用性。这样不仅能提高工作效率，还能确保内容的相关性和准确性。

7. 嵌入模型的成本与部署方式选择

在挑选嵌入模型时，有几个成本因素需要考虑：

基础设施成本：运行嵌入模型需要一定的计算资源支持，比如GPU或是云服务器，这方面的花费取决于你选择的硬件配置和使用时间。
API成本：一些商业模型，例如OpenAI和Cohere提供的服务，会根据处理的Token数量收费。这意味着随着使用量的增加，费用也会相应上升。
存储和内存成本。高维度的大型嵌入模型需要更多的存储空间和内存来运行，这对资源的要求更高，自然也增加了成本。
推理成本。当你在一个大规模的数据集上进行推断操作时，尤其是当嵌入需要频繁更新的情况下，这个过程可能会相当昂贵。

举个例子，如果是一家正在构建搜索引擎的初创公司，他们可能会倾向于选择开源的嵌用模型以减少API成本。相反，那些拥有丰富计算资源的大企业，则可能更愿意选择性能优越但价格不菲的专有模型，因为他们追求的是最高的准确性和效率，而不太在意成本问题。

其中，基于API的模型使用起来非常方便快捷，但长期来看，特别是对于需要大量使用的应用程序来说，成本可能会变得非常高。另一方面，开源模型虽然更加经济实惠，但是要求用户具备更高的技术知识，并且需要自行搭建和维护相关的基础设施。这样看来，选择哪种模型不仅要考虑预算限制，还要结合自身的技术能力和实际需求来决定。

8. 嵌入模型的性能评估指标

嵌入模型的好坏通过多种基准和测试方法来评估：

首先是MTEB：这是一个非常流行的评估框架，用于测试嵌入模型在不同自然语言处理任务上的表现，如语义搜索、分类和聚类。得分越高，通常意味着模型在这些任务中的表现越出色。
内在评估：这种方法通过类似单词相似性这样的任务来检测嵌入能否准确捕捉词语的意义。
外部评估：侧重于考察嵌入模型在实际应用中的表现，比如搜索排名、推荐系统和问答任务等下游应用场景的实际效果。
自定义测试：即在自己的数据集上运行测试以确保它能满足特定需求。例如，一个专注于法律文献检索的律师事务所需要评估模型根据判例法准确检索信息的能力；而一家优化产品推荐的电商公司，则更关心嵌入模型如何影响客户参与度。

另外，余弦距离是一种衡量两个向量间相似性的指标，通过计算两个向量夹角的余弦值来确定它们之间的相似程度。在嵌入模型中，这个指标用来判断两段文本在语义上是否相近。余弦距离的范围从-1到1，具体含义如下：

1表示两个向量方向一致，意味着高度相似；
0表示两个向量相互垂直，意味着没有相似性；
-1则表示两个向量方向完全相反。

在语义搜索和RAG系统的文献检索功能中，余弦距离被广泛应用，用来根据文档与查询间的接近程度对相关文档进行排序。这样一来，就能有效地找到与查询最相关的文档。

9. 不同嵌入类型的适用场景

静态嵌入就像是给每个单词都贴上了一个固定的标签，不管这个单词在不同的句子或段落里是怎么用的。比如Word2Vec、GloVe和FastText这些工具就是这么做的。这种方法虽然能显示出词语间的关系，但不能识别同一个词在不同场合下的不同意思，像“银行”这个词，在指河边的“河岸”时和作为金融机构的“银行”时的意思就被混为一谈了。

而上下文词嵌入则更聪明一些，像是BERT、RoBERTa和Sentence Transformers这样的工具，它们会根据单词周围的文字来动态生成表示，这就让它们能够理解一个词在不同场景中的多种含义。这使得这类模型在执行RAG检索、语义搜索和文本摘要等任务时表现得更加出色。

稠密嵌入是通过像BERT、SBERT和GPT这样的模型生成的，它们把每个词转化为紧凑且固定长度的小向量（比如说768或者1024维）。这种表示方法非常擅长捕捉词语间的语义联系，适用于需要深入理解文本意义的任务，如语义搜索和在RAG中进行相似度排序。

相比之下，稀疏嵌入使用的是传统的技术，如TF-IDF或bm25，这些方法会产生非常高维度但是大部分都是零的向量。尽管看起来有点浪费空间，但在精确的关键字检索系统中却很有效，比如搜索引擎和传统文献检索。

现在的一些先进的RAG流程还会结合稠密和稀疏嵌入的优点，形成所谓的混合搜索方式，这样不仅能保证找到的内容与关键词匹配，还能确保内容之间有更深的语义关联，从而提升整体的检索准确性。

10. 嵌入模型程度选型与RAG实践

在选择嵌入模型时，我们需要考虑几个关键因素。首先得看它能否处理文档的长度，这就涉及到上下文窗口大小；然后是每个令牌的成本，这关系到使用费用的问题；接着要考虑的是模型的质量如何，比如通过MTEB得分或基准性能来评估；还要平衡语义丰富度和计算效率，即维度的选择；最后别忘了令牌化单位的影响。同时，在特定的数据集和应用场景下测试模型的表现也非常重要。

使用嵌入模型的RAG系统工作流程大致如下：

预处理：这里会将输入的文字拆分成标记，并用预先训练好的模型（像BERT或者句子transformer）把这些标记变成向量形式的嵌入。
建索引：就是把生成的这些嵌入信息保存到一个专门的向量数据库里，比如FAISS、Pinecone或Weaviate这样的工具。
检索：当有查询进来的时候，就到了检索环节。系统会给这个查询生成一个对应的嵌入，然后利用余弦距离或者近似最近邻搜索的方法，找出最相似的前k个文档。
排序：根据一些额外的标准，如bm25分数或交叉编码器的结果，对找到的文档重新排序。
增强：将筛选出的文档交给大型语言模型（LLM），例如OpenAI的GPT系列、Claude或是Mistral等，让它们基于这些文档提供的事实和背景信息产生回答。

通过这一整套流程，可以确保最终的回答既准确又具有相关性。

【关联阅读】