术语frequency-inverse 文档频率是两个统计量的乘积:术语频率 (TF) 和逆文档频率 (IDF)。 术语频率衡量每个标记在每个观察中出现的次数。 逆文档频率是对单词信息量的衡量,例如,该单词在所有观察中的常见或罕见程度。如果一个词出现在所有观察中,它可能不会提供那么多的洞察力,但如果它只出现在某些观察中,它可能...