时间久了都忘记了,下面记录一下:
用下面的tfidf函数来计算单词w的权重weight(w)=TF*IDF=TF*lg[|D|/DF(w)],其中词频TF为单词w在该文本中出现的次数,|D|代表训练集中文本总数,DF(w)为出现了w的文档数,而IDF=lg[|D|/DF(w)]称为逆文本频数.该算法又称为tfidf法.
TFIDF公式基于这样的假设:特征项的重要性正比于特征项在该文档中出现的频数,反比于训练文档内出现此特征项的文档频数。
时间久了都忘记了,下面记录一下:
用下面的tfidf函数来计算单词w的权重weight(w)=TF*IDF=TF*lg[|D|/DF(w)],其中词频TF为单词w在该文本中出现的次数,|D|代表训练集中文本总数,DF(w)为出现了w的文档数,而IDF=lg[|D|/DF(w)]称为逆文本频数.该算法又称为tfidf法.
TFIDF公式基于这样的假设:特征项的重要性正比于特征项在该文档中出现的频数,反比于训练文档内出现此特征项的文档频数。