E-Mail:115294781@qq.com 联系电话: 020-84226565

robots.txt的规则误区及百度和Google的robots工具的使用

2013-10-27

对于robots.txt文件对于网站的作用大家都知道,但是通过观察发现,有些朋友对于robots.txt文件的规则还是有一定的误区。 

比如有很多人这样写: 

User-agent: * 

Allow: / 

Disallow: /mulu/ 

不知道大家有没有看出来,这个规则其实是不起作用的,第一句Allow: / 指的是允许蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。 

表面上看这个规则想达到的目的是:允许蜘蛛爬行除了/mulu/之外的网站所有页面。 

但是搜索引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。 

正确的规则应该是: 

User-agent: * 

Disallow: /mulu/ 

Allow: / 

也就是先执行禁止命令,再执行允许命令,这样就不会失效了。 

另外对于百度蜘蛛来说,还有一个容易犯的错误,那就是Disallow命令和Allow命令之后要以斜杠/开头,所以有些人这样写:Disallow: *.html 这样对百度蜘蛛来说是错误的,应该写成:Disallow: /*.html 。 

有时候我们写这些规则可能会有一些没有注意到的问题,现在可以通过百度站长工具(zhanzhang.baidu.com)和Google站长工具来测试。