关紧性气度由链接欢迎度、链接关紧度和均等链接深度这个方面表决。
定义链接欢迎度为IB(P),它主要由反向链接(Backinks)的数量和质量表决。首先考察数量,直观地讲,一个网页有越多的链接指向它(反向链接数多),那么表达其它网页对其的认可。同时这个网页被网民过访的机缘就大,测度出其关紧性也就越高;其次考察质量,假如被越多的关紧性高的网指向,那么其关紧性也就越高。假如不考量质量,便会出现部分最优,而不是全局最优的问题。最典型的就是作弊网页,人为地在一点网页中设置了大量反策链接指向其自身的网页,以增长该网页的关紧性。假如不考量链接质量,便会被这些作弊者所利用。
定义链接关紧度为IL(P),它是一个关于URL字符串的函数,仅只考察字符串本身。链接关紧度主要经过一点模式,譬如认为包含“.COM”还是“HOME”的URL关紧度高,以及具备较少斜杠(Slash)的URL关紧度高等。
定义均等链接深度为ID(P),此为笔者所创。ID(P)表达在一个胚珠站点聚齐中,每个胚珠站点假如存在一条链路(宽度优先遍历规则)到达该网页,那么均等链接深度就是这个网页的又一个关紧性指标。因为距离胚珠站点越近,申说被过访的机缘越多,离胚珠站点越远,关紧性越低。事实上,按照宽度优先的遍历规则即可知足这种关紧性高的网页被优先抓取的需要。
最终,定义网页关紧性的气度为I(P),它由以上两个量化值线性表决,即:
I(P)=a*IB(P)+β*IL(P)
均等链接深度同宽度优先的遍历规则保障,故此不作为关紧性名声的指标。在抓取能力有限的情况下,假如能够把关紧性高的网页尽可能地抓完,是合理科学的,终极被用户查询到的网页也往往是那些关紧性高的网页。
尽管这么看来已经足够完美,事实上,仍然偏废了一个关紧的要素--时间。时间以致万维网动态变动的一面。若何抓取那些新增的网页呢?若何重访那些被修改了的网页呢?若何发现那些被删除开的网页呢?为了保持和万维网网页的同步变动,就务必有网页重访策略。经过该策略可以识别增加、修改及删除网页这3种网页变动的情况。