TF-IDF算法：从文本中发现价值的黄金法则（万字长文解析）！！！

debugdynamo

于 2025-05-18 20:33:51 发布

阅读量527

点赞数 8

文章标签： tf-idf 算法其他

本文链接：https://blog.csdn.net/debugdynamo/article/details/148049531

版权

文章目录

朋友们！今天我要带你们深入一个改变互联网世界的算法——TF-IDF！这个看着像乱码的缩写词，实际上是自然语言处理领域的基石算法（相信我，看完这篇你会回来感谢我的）！

一、什么是TF-IDF？（先搞懂基本概念）

简单来说，TF-IDF就是文本挖掘领域的"黄金探测器"！它能帮我们：

找到文档中的关键词
衡量词语的重要程度
实现精准的文本相似度计算

（这里划重点）它的核心思想是：一个词在某文档中出现次数多，但在整个语料库中出现次数少，这个词就越重要！

二、算法原理拆解（小学生都能懂版）

2.1 TF（Term Frequency）词频

公式：TF = 某个词在文档中出现的次数 / 文档总词数

举个栗子🌰：

“算法工程师需要掌握算法”

"算法"的TF = 2/7 ≈ 0.2857

2.2 IDF（Inverse Document Frequency）逆文档频率

公式：IDF = log(语料库文档总数 / (包含该词的文档数 + 1))

（超级重要）这里为什么要加1？为了防止分母为0啊朋友们！

2.3 TF-IDF = TF * IDF

这个乘积结果就是词语的权重值，值越大说明这个词越重要！

三、Python手把手实现（代码级教学）

import math
from collections import defaultdict

class TFIDF:
    def __init__(self):
        self.docs = []
        self.word_doc_count = defaultdict(int)  # 记录每个词出现在多少文档中
    
    def add_document(self, document):
        words = document.split()
        self.docs.append(words)
        # 更新词文档计数（每个文档只计一次）
        for word in set(words):
            self.word_doc_count[word] += 1
    
    def tf(self, word, document):
        return document.count(word) / len(document)
    
    def idf(self, word):
        return math.log(len(self.docs) / (self.word_doc_count[word] + 1))
    
    def tf_idf(self, word, document):
        return self.tf(word, document) * self.idf(word)

# 使用示例
tfidf = TFIDF()
tfidf.add_document("自然语言处理 是 人工智能 的 重要 分支")
tfidf.add_document("机器学习 是 实现 人工智能 的 核心 方法")

print(tfidf.tf_idf("人工智能", tfidf.docs[0]))  # 输出：0.111...
print(tfidf.tf_idf("机器学习", tfidf.docs[1]))  # 输出：0.405...