1、利用新闻 API、爬虫算法、多线程并行技术,抓取三大专业财经新闻网站(新浪财经、搜狐财经、新华网财经)的大量财经新闻报道;2、对新闻进行去重、时间段过滤,然后对新闻内容文本进行 jieba 分词并词性标注,过滤出名词、动词、简称等词性,分词前使用自定义的用户词词典增加分词的准确性,分词后使用停用词词典、消歧...
4、对所有的新闻内容进行 jieba 分词,并训练出 word2vec 词嵌入模型,然后对聚类后的每一类新闻,提取它们的内容分词后的结果,运用 word2vec 模型得到每个词的词向量,再利用 FP-Growth类算法进行相关新闻挖掘。 3 FP-Growth算法原理 3.1 FP树 FP树是一种存储数据的树结构,如下图所示,每一路分支表示数据集的一...
从新闻网站点击流量中挖掘 在新闻网站上,一个会用户不断点击和浏览各种新闻报道,最终该用户的这些点击会被记录下来,成为该用户点击的历史记录。而所有用户的点击历史记录,是一个蕴含了巨大价值的数据集。 我们可以从各个角度,使用不同的方法来进行有价值的挖掘,并应用到不同的任务中去。 本项目就是从用户点击的历史...
采用FP-Growth算法,结合Matlab数据分析语言编程,挖掘基于掘进参数频繁项集的管片渗漏关联规则,分析关键掘进参数渗漏原理。依据渗漏频繁项集和渗漏规则,推荐4个关键掘进参数组合的预设范围,并应用在某隧道东线的盾构掘进中。结果表明,关键掘进参数组合优化后的成环管片发生渗漏的概率降低29.36%。吴惠明上海隧道工程股份有限...