第5章信息提取 214 5.1指代消解 214 5.2关键词提取 216 5.2.1关键词提取的TF-IDF算法 216 5.2.2textrank算法 218 5.2.3从网页中提取关键词 221 5.3从互联网提取信息 222 5.4从日期字符串提取信息 223 5.5本章小结 223 第6章自动摘要 224 6.1自动摘要技术 224 6.1.1英文文本摘要 226 6.1....
第11章 Python中文文本分析 237 11.1 中文结巴分词 237 11.1.1 文本分词模式 237 11.1.2 自定义停用词 239 11.2 中文关键词提取 240 11.2.1 TF-IDF算法 240 11.2.2 TextRank算法 241 11.3 中文词向量生成 242 11.3.1 训练词向量模型 242 11.3.2 计算文本词向量 244 11.4 ...
第5章 词向量与关键词提取 90 5.1 词向量算法word2vec 90 5.1.1 神经网络语言模型 91 5.1.2 C&W模型 92 5.1.3 CBOW模型和Skip-gram模型 93 5.2 关键词提取技术概述 94 5.3 TF-IDF算法 95 5.4 TextRank算法 96 5.5 LSA/LSI/LDA算法 98 5.5.1 LSA/LSI算法 98 5.5.2 ...
《Python自然语言处理》是2021年清华大学出版社出版的图书,作者是周元哲。内容简介 本书内容包括自然语言处理概述、Python语言简述、Python数据类型、Python流程控制、Python函数、Python数据科学、Sklearn和NLTK、语料清洗、特征工程、中文分词、文本分类、文本聚类、评价指标、信息提取和情感分析。附录给出教学大纲。本书采用...
8.6 实战案例:Gensim实现新闻文本特征向量化 169 8.6.1 参数设置 169 8.6.2 生成词典模型 170 8.6.3 生成TF-IDF模型 172 8.7 本章小结 173 第9章 PCA降维技术 174 9.1 什么是降维 174 9.2 PCA概述 175 9.3 PCA应用场景 177 9.4 PCA的算法实现 178 9.4.1 准备数据 178 ...
8.6 实战案例:Gensim实现新闻文本特征向量化 169 8.6.1 参数设置 169 8.6.2 生成词典模型 170 8.6.3 生成TF-IDF模型 172 8.7 本章小结 173 第9章 PCA降维技术 174 9.1 什么是降维 174 9.2 PCA概述 175 9.3 PCA应用场景 177 9.4 PCA的算法实现 178 9.4.1 准备数据 178 ...
10.2.2 答案文本长度的分布统计198 10.2.3 label字段值分布统计199 10.3 关键词匹配200 10.3.1 数据预处理200 10.3.2 TF-IDF模型202 10.4 精准匹配203 10.4.1 数据预处理203 10.4.2 精准匹配模型206 10.4.3 模型评价211 10.5 模型应用214 10.6 小结215 第11章 岩石样本智能识别216...
实训2 使用TF-IDF算法提取关键词 109 实训3 使用TextRank算法提取关键词 110 实训4 使用LSA算法提取关键词 110 课后习题 110 第7章 文本向量化 112 7.1 文本向量化简介 112 7.2 文本离散表示 113 7.2.1 独热表示 113 7.2.2 BOW模型 113 7.2.3 TF-IDF表示 114 7.3 文本...