TF和IDF

本文详细介绍了TF-IDF算法的原理及应用,包括如何通过词频(TF)与逆文本频率(IDF)计算单词的权重,进而应用于文本分析中。文章深入探讨了算法背后的假设及其实现过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

时间久了都忘记了,下面记录一下:


用下面的tfidf函数来计算单词w的权重weight(w)=TF*IDF=TF*lg[|D|/DF(w)],其中词频TF为单词w在该文本中出现的次数,|D|代表训练集中文本总数,DF(w)为出现了w的文档数,而IDF=lg[|D|/DF(w)]称为逆文本频数.该算法又称为tfidf法.

 

TFIDF公式基于这样的假设:特征项的重要性正比于特征项在该文档中出现的频数,反比于训练文档内出现此特征项的文档频数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值