1、蜘蛛抓取网页的规则:
对于蜘蛛说网页权重越高、信用度越高抓取越频繁,例如网站的首页和内页。蜘蛛先抓取网站 的首页,因为首页权重更高,并且大部分的链接都是指向首页。然后通过首页抓取网站的内页 ,并不是所有内页蜘蛛都会去抓取。
搜索引擎认为对于一般的中小型站点,3层足够承受所有的内容了,所以蜘蛛经常抓取的内容 是前三层,而超过三层的内容蜘蛛认为那些内容并不重要,所以不经常爬取。
2、如何看蜘蛛的抓取?
通过iis日志可以看蜘蛛爬取了哪些内容,iis日志有百度蜘蛛、谷歌蜘蛛等。从iis日志里卖 弄分析得出蜘蛛的类型、抓取时间、抓取的页面、抓取内容的大小以及返回的页面代码,,200 代表抓取顺利。