深入理解spaCy中的词向量与相似度计算

裘旻烁

于 2025-05-30 09:19:15 发布

阅读量309

点赞数 3

本文链接：https://blog.csdn.net/gitblog_00250/article/details/148328340

版权

深入理解spaCy中的词向量与相似度计算

spaCy 项目地址: https://gitcode.com/gh_mirrors/spa/spaCy

词向量基础概念

在自然语言处理(NLP)中，词向量(Word Vectors)或称词嵌入(Word Embeddings)是词语的多维语义表示。spaCy使用这些向量来确定词语之间的相似度。词向量通常通过算法生成，每个词被表示为高维空间中的一个点，语义相近的词在这个空间中位置也相近。

一个典型的词向量看起来像这样（以"banana"为例）：

array([2.02280000e-01,  -7.66180009e-02,   3.70319992e-01,
       3.28450017e-02,  -4.19569999e-01,   7.20689967e-02,
       ...  # 通常有数百个维度
      -1.19659996e+00,  -4.71559986e-02,   5.31750023e-01], dtype=float32)

spaCy中的向量使用注意事项

重要提示：spaCy的小型模型包（名称以sm结尾的）为了保持轻量和快速，不包含词向量，只包含上下文相关的张量。这意味着虽然你仍然可以使用similarity()方法来比较文档、片段和词元，但效果会打折扣，且单个词元不会有向量分配。

要使用真正的词向量，你需要下载更大的模型包，例如：

python -m spacy download en_core_web_lg

实际操作：检查词向量

加载包含词向量的模型后，你可以检查每个词元是否具有向量表示：

import spacy

nlp = spacy.load("en_core_web_md")
tokens = nlp("dog cat banana afskfsd")

for token in tokens:
    print(token.text, token.has_vector, token.vector_norm, token.is_oov)

输出结果会显示：

文本：原始词元文本
是否有向量：布尔值，表示该词是否有向量表示
向量范数：词向量的L2范数（各维度平方和的平方根）
是否OOV：是否超出词汇表(Out-of-vocabulary)

常见词如"dog"、"cat"和"banana"通常都有向量表示，而像"afskfsd"这样的生僻词则会被标记为OOV，其向量表示是全零向量。

相似度计算实战

spaCy可以比较两个对象的相似度，这在推荐系统或重复内容检测等场景非常有用。每个Doc、Span、Token和Lexeme对象都有.similarity方法：

doc1 = nlp("I like salty fries and hamburgers.")
doc2 = nlp("Fast food tastes very good.")

# 文档相似度
print(doc1, "<->", doc2, doc1.similarity(doc2))

# 片段和词元相似度
french_fries = doc1[2:4]
burgers = doc1[5]
print(french_fries, "<->", burgers, french_fries.similarity(burgers))