分析Robots.txt规则误区 百度和Googlerobots工具使用

  前段时间写了篇robots.txt文件怎么写,但是通过实际观察,有些朋友对于robots.txt文件的规则还是有一定的误区。

  比如有很多人这样写:

User-agent: *
Allow: /
Disallow: /mulu/

  不知道大家有没有看出来,这个规则其实是不起作用的,第一句Allow: / 指的是允许蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。

  表面上看这个规则想达到的目的是:允许蜘蛛爬行除了/mulu/之外的网站所有页面。

  但是搜索引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。

  正确的规则应该是:

User-agent: *
Disallow: /mulu/
Allow: /

  也就是先执行禁止命令,再执行允许命令,这样就不会失效了。

  另外对于百度蜘蛛来说,还有一个容易犯的错误,那就是Disallow命令和Allow命令之后要以斜杠/开头,所以有些人这样写:Disallow: *.html 这样对百度蜘蛛来说是错误的,应该写成:Disallow: /*.html 。

  有时候我们写这些规则可能会有一些没有注意到的问题,现在可以通过百度站长工具(zhanzhang.baidu.com)和Google站长工具来测试。

  相对来说百度站长工具robots工具相对简陋一些:

  


 

  


 

  


 

  百度Robots工具只能检测每一行命令是否符合语法规则,但是不检测实际效果和抓取逻辑规则。

  相对来说Google的Robots工具好用很多,如图:

  


 

  在谷歌站长工具里的名称是抓取工具的权限,并报告Google抓取网站页面的时候被拦截了多少个网址。

  


 

  还可以在线测试Robots修改后的效果,当然这里的修改只是测试用,如果没有问题了,可以生成robots.txt文件,或者把命令代码复制到robots.txt文本文档中,上传到网站根目录。

  


 

  Google的测试跟百度有很大的区别,它可以让你输入某一个或者某些网址,测试Google蜘蛛是否抓取这些网址。

  


 

  测试结果是这些网址被Google蜘蛛抓取的情况,这个测试对于Robots文件对某些特定url的规则是否有效。

  而两个工具结合起来当然更好了,这下应该彻底明白robots应该怎么写了吧。

  转载请注明来自逍遥博客,本文地址:http://liboseo.com/1170.html

  除非注明,逍遥博客文章均为原创,转载请注明出处和链接!

时间: 2024-11-02 16:35:39

分析Robots.txt规则误区 百度和Googlerobots工具使用的相关文章

网站优化跟踪 细看robots.txt规则的实际效果

10月20日,我对博客进行了大规模调整,就如同对待亟待成长的树一般修枝剪叶,以期能有较好的成长趋势.其中robots.txt被我充分的利用起来.如今一个工作周即将过去,robots.txt文件规则是否正确,是否已经生效?百度谷歌等搜素引擎是否响应了robots.txt规则进行索引调整?作为站长我需要深入研究一番,以便动态掌握博客收录状态. 经调查发现,谷歌对robots.txt反应比较迅速,第三天在网站管理工具里找到了迹象.百度表现不尽如人意,说百度不认robots.txt规则那是瞎扯,但反应周

细看robots.txt规则的实际效果

摘要: 10月20日,我对博客进行了大规模调整,就如同对待亟待成长的树一般修枝剪叶,以期能有较好的成长趋势.其中robots.txt被我充分的利用起来.如今一个工作周即将过去,robots.txt文件规 10月20日,我对博客进行了大规模调整,就如同对待亟待成长的树一般修枝剪叶,以期能有较好的成长趋势.其中robots.txt被我充分的利用起来.如今一个工作周即将过去,robots.txt文件规则是否正确,是否已经生效?百度谷歌等搜素引擎是否响应了robots.txt规则进行索引调整?作为站长我

分析robots.txt禁止页面出现在搜索结果中的影响

  有的是时候,你会惊奇的发现,明明在robots.txt中禁止收录的页面,却出现在了搜索引擎结果列表中,特别是在site:的时候最容易发现.这是你可千万不要惊慌,去怀疑是否robots.txt语法规则写错了. robots.txt里禁止的页面为什么出现在搜索结果中 robots.txt禁止抓取的文件搜索引擎将不访问,不抓取.但要注意的是,被robots.txt禁止抓取的URL还是可能出现在搜索结果中,只要有导入链接指向这个URL,搜索引擎知道这个URL的存在,虽然不会抓取页面内容,但是可能以下

百度对robots.txt的神速反应

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 和社会脱轨有段时间了.最近在做一个优化的时候发先了一个有趣的问题-robots.txt文件对百度的限制抓去效果很神速. 直接上数据吧,目标网站www.opine.cn,12月份改版,全新程序,老站的数据有一部分没有删除,放在了2个目录夹下.新改版的数据收录很快,当天收录就从200多上升到了300多的收录.因为当时我还没开始做这个站,直到12月

说到掉渣的ROBOTS.TXT的写法

摘要: 记得很早以前,那个时间新浪屏蔽百度蜘蛛的事件传得很大,其实你主要是学会了ROBOTS.TXT的写法,那就简单的了,两下就认出了这事的真假.所以说学好技术,可以更好的知道真相. 记得很早以前,那个时间新浪屏蔽百度蜘蛛的事件传得很大,其实你主要是学会了ROBOTS.TXT的写法,那就简单的了,两下就认出了这事的真假.所以说学好技术,可以更好的知道真相. 首先,我们先来认识我们亲爱的蜘蛛们吧: 国内的搜索引擎蜘蛛 百度蜘蛛:baiduspider 搜狗蜘蛛:sogou spider 有道蜘蛛:

robots txt 写法-robots.txt 写法 robots.txt 写法

问题描述 robots.txt 写法 robots.txt 写法 User-agent: * Allow:/html/ allow:/index.php$ allow:/index.html$ Disallow:/ 以上只收录html和首页,这样写对吗 解决方案 SEO 必备--robots.txt写法robots.txt的详细写法实例分析Robots.txt写法 解决方案二: 嗯,应该是对的,具体的写法可以去参考百度开发者网站上的,里面有各种详细的配置 解决方案三: $表示匹配后面任意字符.h

两个方法检查网站robots.txt是否合理

看了很多网站优化的文章,都很少提及如何检查网站的robots.txt,大多就说明一下robots.txt要设置好.对于高手来讲,这是小菜一碟,可以轻松判断robots.txt是否合理,但对于一些菜鸟来讲,根本无法判断自己网站的robots.txt是否合理,一个错误的robots.txt文件会使搜索引擎机器无法挖掘你的网站,其结果是你的新内容无法列举在搜索引擎的索引中.这对网站站长来说是一个巨大的损坏.如果你做错了什么并重新编辑 robots.txt文件的话,它需要两个星期才能看到效果.因此一个正

如何放置Robots.txt文件

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制.这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件.如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt是一个简单有效的工具.这里简单介绍一下怎么使用它. 如何放置Robots.txt文件 robots

舍卒保帅:巧用robots.txt提升网站权重

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 这不是什么绝窍,而是向大家提供一种思路. 目前采集站很多,加上百度算法频繁调整,被降权,被K成光杆司令的站比比皆是. 我的新站易拍屋www.epioo.com就更不例外了.这是一个网摘类站点,在会员收藏网页的同时不仅给网页截图还保存原网页代码,即完全备份一个页面,存在高度复制性. 刚开始的时候百度收录3千页每天就有1千多IP,可是好景不长,几