将文本分解为单词或n-grams。 2.计算TF-IDF: 计算每个单词的词频(TF)。 计算每个单词的逆文档频率(IDF)。 3.计算余弦相似度: 对于两个文本,将TF-IDF向量表示。 计算两个向量的余弦相似度。 4.相似度比较: 余弦相似度值范围在-1到1之间,其中1表示完全相同,0表示没有共同点,-1表示完全相反。 根据余弦相似...