网站和页面权重。
质量高,资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录。
页面更新度。
蜘蛛每次爬行都会把页面数据储存起来。如果第二次爬行发现页面与第一次完全一样,那说明页面没有更新,蜘蛛也就没有必要经常抓取。如果页面内容经常更新,蜘蛛就会更频繁第访问这种页面,页面上出现的新连接,也自然会被蜘蛛更快第追踪,抓取新页面。
导入链接。
无论是外链还是内链,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行,深度增加。
http://www.yixiin.com/news/list-6928.html
http://www.yixiin.com/quote/list/3471/
http://www.yixiin.com/news/list-1831.html
http://www.yixiin.com/quote/list/3480/
http://www.yixiin.com/news/list-1839.html