1、Partial PageRank策略
http://www.yixiin.com/news/
Partial PageRank策略借鉴了PageRank算法的思想,对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。
通常搜索引擎会采取每当新下载网页达到一个N值后,就将所有下载过的网页计算一个新的PageRank(非完全PageRank值),然后将待抓取URL跟这个进行重新排序。这种方法的争议很大,有人说比宽度优先遍历策略的效果:也有人说这样与PageRank的完整值差别很大,依托这种值的排序不准确。
2、OPIC策略
http://www.yixiin.com/news/list-1837.html
OPIC策略更像是Partial PageRank策略进行的改进。OPIC策略与Partial PageRank策略大体结构上相同, 类似与PageRank评级的网页重要性,每个网页都会有一个10分,然后分别传递给网页上的链接,最后10分清空。通过网页获得的分值高低,评级一个网页的重要性,优先下载获得评分高的URL。这种策略不需要每次都要对新抓取URL进行重新计算分值。