相信很多站长都了解到--robots文件网站与搜索引擎的一个约束性协议,约定哪些页面可以允许访问,哪些不允许访问,各种搜索引擎的蜘蛛爬行抓取,是根据根目录下的robots文件来确定接下来其要访问的范围。
robots文件有三大标签和2个通配符:
1、User-agent:用户代理,表示用来指定针对哪个搜索引擎。
2、Allow:允许访问。首字母大写。
3、Disallow:不允许访问。首字母大写。
4、*:通配符匹配0个或者若干个字符
5、$:匹配url类型,属于终止符。
robots文件使用注意事项:
1、只有一个/ 斜杠——表示整个网站的根目录,表示所有的文件都可以抓取。
2、*放在用户代理后面,表示匹配所有蜘蛛。
3、Allow优先级大于Disallow(跟顺序无关)。
4、前后都有* ——表示前面和后面出现任何字符都会屏蔽掉。
5、disalow: *?* ——表示屏蔽掉所有动态路径。
6、冒号用英文状态,且后面一定有空格。