Shark-Search算法 •在Fish-Search算法基础上的改进•网页与主题的相关性 -相关/不相关0,1-VSM模糊评分[0,1]•潜在相关得分 -父结点相关性的继承-链接文本-链接上下文 sim(q,current_url),ifsim(q,current_url)0inherited(child_url)inherited(current_url),otherwise系数1)anchor_context(url)1sim(q,...
链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 引言 网页爬取是搜索引擎工作的重要步骤 网页的静态搜集 -时新性较差,不能保证链接的有效性 -不具有可定制性 网页的主题爬取 -指定主题,即时定向,对待访问链接进行评价 -较好的时新性,大量节约硬件和网络资源 ...
一种改进Shark-Search的多媒体主题搜索算法
Shark-Search算法是一个经典的主题爬取算法.针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题,提出了基于网页分块的Shark-Search算法,该算法从页面,块,链接的多种粒度来更加有效的进行链接的选择与过滤.实验证明,改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.关键...
基于Shark-Search和Hits算法的主题爬虫研究