TF-IDF

词频因此(tf)

Tf计算因子代表了词频,即一个单词在文档中出现的次数。

变体1: $W_{tf} = 1 + log(Tf)$

变体2: $W_{tf} = a + (1-a)\times{Tf\over Max(Tf)}$

(a=0.4)
同一个文档内单词之间的相对重要性。

逆文档频率因子(IDF)

表示文档集合范围的一种全局因子。给定一个文档集合,那么每个单词的IDF值就唯一确定,跟具体的文档无关。所以IDF考虑的不是文档本身的特性,而是特征单词之间的相对重要性。
$IDF_k = log{N \over n_k}$
N: 文档数目
$n_k$: 文档频率

TF-IDF框架

$Weight_{word} = TF \times IDF$