Robots规则常见误区及Google百度Robots工具的使用

  对于robots.txt文件对于网站的作用大家都知道,但是通过观察发现,有些朋友对于robots.txt文件的规则还是有一定的误区。

  比如有很多人这样写:

  User-agent: *

  Allow: /

  Disallow: /mulu/

  不知道大家有没有看出来,这个规则其实是不起作用的,第一句Allow: / 指的是允许蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。

  表面上看这个规则想达到的目的是:允许蜘蛛爬行除了/mulu/之外的网站所有页面。但是搜索引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。

  正确的规则应该是:

  User-agent: *

  Disallow: /mulu/

  Allow: /

  也就是先执行禁止命令,再执行允许命令,这样就不会失效了。另外对于百度蜘蛛来说,还有一个容易犯的错误,那就是Disallow命令和Allow命令之后要以斜杠/开头,所以有些人这样写:Disallow: *.html 这样对百度蜘蛛来说是错误的,应该写成:Disallow: /*.html 。

  有时候我们写这些规则可能会有一些没有注意到的问题,现在可以通过百度站长工具(zhanzhang.baidu.com)和Google站长工具来测试。相对来说百度站长工具robots工具相对简陋一些:

  


 

  


 

  


 

  百度Robots工具只能检测每一行命令是否符合语法规则,但是不检测实际效果和抓取逻辑规则。

  相对来说Google的Robots工具好用很多,如图:

  


 

  在谷歌站长工具里的名称是抓取工具的权限,并报告Google抓取网站页面的时候被拦截了多少个网址。

  


 

  还可以在线测试Robots修改后的效果,当然这里的修改只是测试用,如果没有问题了,可以生成robots.txt文件,或者把命令代码复制到robots.txt文本文档中,上传到网站根目录。

  


 

  Google的测试跟百度有很大的区别,它可以让你输入某一个或者某些网址,测试Google蜘蛛是否抓取这些网址。

  


 

  测试结果是这些网址被Google蜘蛛抓取的情况,这个测试对于Robots文件对某些特定url的规则是否有效。而两个工具结合起来当然更好了,这下应该彻底明白robots应该怎么写了吧。

  转载请注明来自逍遥博客,本文地址:http://liboseo.com/1170.html,转载请注明出处和链接!

时间: 2024-10-30 11:11:42

Robots规则常见误区及Google百度Robots工具的使用的相关文章

Robots.txt的写法和利用百度站长平台工具自动生成

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度站长平台提供了一个很好的robots.txt自动生成工具,利用它我们可以很方便的写出robots.txt,通过robots.txt阻止搜索引擎收录你不想要被收录的页面及目录,还可以阻止及引导蜘蛛爬行更多的页面,减少蜘蛛的爬行量,提高蜘蛛的爬行效率,有效的提升更多的页面被收录. 前面我们介绍了通过IIS日志分析让你更好的了解网站运行情况,可

网站优化策略之六:网站定位常见误区

在上一篇文章中,张东为大家介绍了网站定位的基本概述,但是还是有许多朋友在做网站定位的时候搞不清方向,会陷入一些网站定位的误区,从而导致事倍功半甚至徒劳无功,那么今天张东就为大家分析一些常见的网站定位误区. 1.盲目跟风 这个许多中小型站长的通病,看到团购红红火火,于是赶紧去做个团购网站,看到大家都在做地方门户,自己赶紧去下载一个DZ开始搭建,看到好123非常赚钱,于是自己马上去弄一个网址导航站,下次听到老师说某某淘宝客佣金非常高,于是乎注册淘宝客账户,弄API接口上马淘宝购物导航.殊不知各个行业

Google/百度 都不可能垄断互联网广告

昨天,刘兴亮的IT龙门阵请来了谢文点评现在的各大知名互联网公司.很遗憾,最近需要照顾怀孕的老婆,晚上都没办法出门.不过,互联网就是方便,本伟的忙否来了一个"直播",让我们这些不能亲临现场的人也可以略知大概. 从本伟的直播上知道,谢老师最后一个话题,好像提到了GOOGLE和百度在互联网广告的地位问题."谢文: gongle垄断广告市场是很恐怖的"听这话,老谭说了一句"中国有了阿里妈妈,百度/google想垄断广告市场就不容易了哦."当然了,谭晨辉作

产品用户在硬件防火墙测评中的常见误区

不是什么事都可成功的,都有失败的记录.比如硬件防火墙测评,本文尝试着整理了产品用户在硬件防火墙测评中的常见误区,将于大家进行探讨. 误区一:误信含糊实验条件的惊人数字 亲阅过无数防火墙产品广告,一个个白纸黑字标称的4G吞吐量让人炫目,但如果把"64字节小包"."线速"."坚持几分钟"之类字眼抛出来,销售人员就会对吞吐量自己先变的吞吞吐吐起来.所以不能轻信厂商提供的各项数据,必须拿标准实验条件的测试结果来比对,或者重新搭建环境亲自来测试. 误区二:

ECS数据分区丢失问题处理方法、常见误区和最佳实践

本期分享嘉宾 子岳 多年客户系统和网络运维经验,擅长系统故障分析和排查,目前聚焦VPC网络相关问题处理. ECS数据分区丢失问题处理方法.常见误区和最佳实践 概述 我们在处理客户磁盘相关问题时,经常遇到操作系统中数据盘分区丢失的情况.本文档介绍了Linux和Windows下常见的数据分区丢失问题,以及对应的处理方法,同时给出客户最佳实践以避免可能的数据丢失风险.重要 在对数据修复之前,首先需要对分区丢失的数据盘创建快照.快照创建完成后再进行尝试修复,如果在修复过程中出现问题,可以通过快照回滚还原

在对智能电视的理解上,我们通常陷入两个常见误区

摘要: 没有客厅加入的新媒体革命无法想象,类似法国大革命却没有占领巴士底狱一样可笑. 客厅,传统上一家人的娱乐活动中心.乡校议事中心以及资讯收视中心,却在现实中被逐步的推到 没有客厅加入的新媒体革命无法想象,类似法国大革命却没有占领巴士底狱一样可笑. 客厅,传统上一家人的娱乐活动中心.乡校议事中心以及资讯收视中心,却在现实中被逐步的推到了媒体边缘地带,有沦落为单纯饭厅的危险. 人们总是有很多辩解的理由:电脑占据了人们的娱乐时间啦.手机游戏让孩子们上影啦.电影院的观影效果要好的多啦--说到底逃不出

拨开云雾:破除大数据的四大常见误区

文章讲的是拨开云雾:破除大数据的四大常见误区,大数据概念自诞生以来,与之相关的争论之声就不绝于耳.如今似乎每一家软件供应商.咨询服务企业以及意见领袖都在以自己的理解为其进行"正确"定义.尽管笔者一直认为这种所谓"正确"的定义根本不存在,本文将专注于为大家破除最常见的大数据认识误区. 误区一:所有数据都将尽在掌握 从很多方面来看,我们目前生活的时代都前所未有的,过去从未面对过如此庞大的数据量.把MB和PB的概念抛在脑后吧,现在EB(即艾字节)级别的数据已经真实存在.笔

红衫网赚:企业博客营销的三点常见误区

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 在现在的国内互联网环境下,企业利用博客营销已经不是什么新鲜事了,大部分企业网站都有自己专门的博客来进行定期维护,但是企业利用博客营销往往存在很多误区,今天红衫网赚就和各位站长一起探讨下企业博客营销中的三点常见误区: 第一.避免博客营销成为广告中小企业在其博客上投放广告,效果不是很好,主要的原因就是不精准.而且无论多直白或多巧妙的网络广告,都会

云安全理解上的四大常见误区

最近,Forrester研究公司的副总裁兼首席分析师James Staten在"欧特克创新设计技术峰会"(Autodesk University,简称AU)上介绍了Forrester公司对于云计算领域的研究发现.欧派克举办的年度用户大会共吸引了8,000与会者到场,而云计算始终是大会的热门话题之一. 云计算提供的主要优点包括连接性.移动性.灵活性和无限计算的能力,这些都容易为人们理解.然而,对于云计算的定义及其关键属性,我们在理解上或许还有缺陷. 为此,Staten在讲话中努力阐明了云