查找发现了两个比较好的网页正文提取算法: 国内:哈工大的《基于行块分布函数的通用网页正文抽取》该算法开源网址为http://code.google.com/p/cx-extractor/,效果为亲测,文章中呈准确率95%以上,对1000个网页抽取耗时21.29秒。看了文章感觉不错,无需html解析,效率应该会高些。 国外:大名鼎鼎的arc90实验室的Readabi...
该算法分为页面块提取、分隔条提取和语义块重构3部分,并且是递归调用的过程,直到条件不满足为止. 相关文献: 《基于视觉特征的网页正文提取方法研究》安增文,徐杰锋 《A vision—based page segmentation algorithm》 4. 基于数据挖掘/机器学习 看到很多作者对这一思路的普遍评价是"杀鸡焉用牛刀"。 基本思路是使用一定...
抓取单个网站网页内容时通常采用正则匹配的方式,但不同网站之间结构千奇百怪,很难用统一的正则表达式进行匹配。 《基于行块分布函数的通用网页正文抽取算法》 的作者总结了一般从网页中提取文章正文的方法,提出基于行块分布的正文抽取算法,并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点:算...
基于相似度的中文网页正文提取算法
与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文 内容提取的召回率提升至95.8%。 关键词:权值优化;正文内容提取;特征属性;统计特征;准确率;召回率 中图分类号:TP391 doi:10.3969/j.issn.1000-565X.2011.04.006 随着互联网的迅速发展,Web上的信息呈爆炸 ...
绿色网络网页正文内容提取算法
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化...
字、加字但是主题内容相同的重复网页便无法检测出来,这使得搜索引擎作弊者有机可图。 基于长句提取的网页去重算法思想:先找出网页正文中最长的 m(m>0,且小于等于句子总 数)个句子;再依次对每个句子做摘要,并将得到的 m 个摘要值所组成的向量作为网页的指 ...
网页去重是提高网络检索效果的有效途径.针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去重算法.该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长句作为网页特征码实现相似网页判断.实验证明,该方法提高了篇幅...