下面是TF-IDF算法的基本流程: 1.词频(TF)计算: 对于每个文档,计算其中每个词的出现频率。 词频可以通过统计词在文档中出现的次数来计算。 通常使用归一化的方法,将词频除以文档中的总词数,以得到相对词频。 2.逆文档频率(IDF)计算: 对于整个文档集合,计算每个词的逆文档频率。 逆文档频率反映了一个词在整个...
步骤2.2所述的采用tf-idf算法进行恶意pdf文档特征生成,得到至少一组特征单词,并统计特征单词的tf-idf值,还包括以下步骤:步骤2.2.1:判断样本中是否还存在未遍历的恶意pdf文档,若已遍历所有恶意pdf文档,结束统计tf-idf值的流程,若还有未遍历所有恶意pdf文档,则进行步骤2.2.2;步骤2.2.2:计算未遍历的恶意pdf文档中...