使用Upstage Embedding模型进行文本嵌入与检索_如何用嵌入模型完成文本相似查找-CSDN博客

本文链接：https://blog.csdn.net/bBADAS/article/details/146450497

## 技术背景介绍

嵌入技术是AI中重要的文本表示方法之一，它将文本数据转换为数值向量，使得计算机能够更有效地处理和分析文本数据。Upstage提供了一款强大的嵌入模型`solar-embedding-1-large`，能够将文本进行高效的嵌入，适用于各种文本分析和搜索任务。

## 核心原理解析

Upstage嵌入模型采用先进的深度学习技术，将文本转换为向量，这些向量可以用于比较文本相似度、分类、聚类等任务。在更高的维度中表示文本信息，使得模型能够捕捉到复杂的语义关系。

## 代码实现演示

以下是如何使用Upstage嵌入模型进行文本嵌入的详细步骤：

### 安装与环境设置

首先，确保安装必要的Python包并设置环境变量 `UPSTAGE_API_KEY`。

```shell
pip install -U langchain-upstage

然后，在你的代码中设置API密钥：

import os

os.environ["UPSTAGE_API_KEY"] = "YOUR_API_KEY"

使用UpstageEmbeddings类

初始化 UpstageEmbeddings 类以获得嵌入实例：

from langchain_upstage import UpstageEmbeddings

# 初始化嵌入模型
embeddings = UpstageEmbeddings(model="solar-embedding-1-large")

文档嵌入示例

使用 embed_documents 方法来嵌入多个文本或文档：

# 嵌入文档列表
doc_result = embeddings.embed_documents(
    ["Sung is a professor.", "This is another document"]
)
print(doc_result)  # 输出嵌入的向量

查询嵌入示例

使用 embed_query 来嵌入查询字符串：

# 嵌入查询字符串
query_result = embeddings.embed_query("What does Sung do?")
print(query_result)  # 输出嵌入的查询向量

异步操作

如果需要异步嵌入，可以使用 aembed_queries 和 aembed_documents 方法：

# 异步嵌入查询
await embeddings.aembed_query("My query to look up")

# 异步嵌入文档
await embeddings.aembed_documents(
    ["This is a content of the document", "This is another document"]
)

与向量存储结合使用

Upstage嵌入支持与向量存储结合，以下是使用DocArray进行向量存储和检索的示例：

from langchain_community.vectorstores import DocArrayInMemorySearch

# 使用Upstage嵌入与向量存储结合
vectorstore = DocArrayInMemorySearch.from_texts(
    ["harrison worked at kensho", "bears like to eat honey"],
    embedding=UpstageEmbeddings(model="solar-embedding-1-large"),
)
retriever = vectorstore.as_retriever()
docs = retriever.invoke("Where did Harrison work?")
print(docs)