搜 索引擎依靠蜘蛛来实行对页面的爬行和抓取,当由一个导入链接进入一个新站的时候,要做的第一件事就是进行访问robots.txt文件,这个文件准确清晰的给蜘蛛以本站的指引,站长可以规定搜索引擎访问哪些页面和不允许访问哪些页面。一般来说有道德的搜索引擎都会严格的按照规矩去执行。2010年淘宝robots,txt封锁了全站拒绝百度收录。http://www.yixiin.com/spread/ 时至今日我们依然可以通过百度搜索到淘宝的页面。为了可以获得更多的网站信息,蜘蛛会按照页面上的链接一个紧接着一个去爬行页面。从理论上来说蜘蛛可以爬行和抓取玩整个网站,但是由于有的页面结构过于复杂蜘蛛一般需要采用一些手段才可以更好的爬行,而这种手段一般来说有两种一种是广度爬行,一种是深度爬行。所谓深度爬行就是蜘蛛按照一个目录一直往下爬行一直按照这目录或者栏目往下走,走到最后在重新返回初始链接,在从第二个目录爬行。而广度爬行咋恰恰相反,是按照目录层次爬行,先爬完一级目录在爬行二级目录,如此往下。http://www.yixiin.com/news/