1.3.1.3TF-IDF计算 使用sklearn库中的TfidfVectorizer来计算TF-IDF。 fromsklearn.feature_extraction.textimportTfidfVectorizer #将预处理后的电影信息转换为字符串 movie_info=[.join(movie)formovieinprocessed_movies] #创建TF-IDF向量化器 vectorizer=TfidfVectorizer() ...
TF-IDF的计算公式结合了TF和IDF,具体为: T 这个公式综合考虑了词在文档中的出现频率和词在整个文档集合中的普遍性,从而有效地评估了词对文档的重要性。 1.2.1示例代码 假设我们有以下文档集合: 文档1:我喜欢看电影 文档2:我喜欢看电视剧 文档3:电影和电视剧我都喜欢看 ...
1.3.1.1示例:使用TF-IDF构建歌曲特征向量 假设我们有以下歌曲数据集: 歌曲ID 歌曲名称 艺术家 流派 歌词 1 SongA ArtistX Pop “Loveinthecity,underthemoonlight” 2 SongB ArtistY Rock “Ridethewind,feelthefreedom” 3 SongC ArtistX Pop “Danceintherain,smilethroughthepain” ...