比较全的robots.txt介绍

  前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录。当时感觉很不对劲,检查来检查去也没有检查出什么问题,后来登录Google网站管理员中心诊断网站才看到robots文件组织任何搜索引擎蜘蛛访问才发现问题,改过之后,收录正常。

  robots.txt文件的写法你知道多少呢?对比一下下面的例子:

  1、禁止所有搜索引擎访问网站的任何部分,也就是是禁止任何搜索引擎收录你的网站。

  User-agent: *

  Disallow: /

  2、允许所有的搜索引擎访问你的网站的任何部分,这是通常的用法。

  User-agent: *

  Disallow:

  或者

  User-agent: *

  Allow: /

  3、仅禁止某一搜索引擎访问你的网站。百度是baiduspider Google是googlebot

  User-agent: baiduspider

  Disallow: /

  或者

  User-agent: googlebot

  Disallow: /

  4、仅仅允许某一搜索引擎访问你的网站。同样百度是baiduspider Google是googlebot

  User-agent: baiduspider

  Disallow:

  或者

  User-agent: googlebot

  Disallow:

  5、如果你网站的某个目录不希望被搜索引擎收录,写法如下:

  User-agent: *

  Disallow: /目录名称1/

  Disallow: /目录名称2/

  Disallow: /目录名称3/

  注意:不能写成Disallow: /目录名称1/ /目录名称2/ 这样的形式,每个目录要单独另起一行特别说明。

  6、禁止搜索引擎访问网站中所有的动态页面(动态页面就是URL中任何带有“?”的页面)

  User-agent: *

  Disallow: /*?*

  7、仅仅允许搜索引擎访问某一特定文件后缀形式的网页。

  User-agent: *

  Allow: .后缀形式(如.html、.htm、.php等等)$

  Disallow: /

  8、限制搜索引擎访问某一特定文件后缀形式的网页。

  User-agent: *

  Disallow: /*.后缀形式(如.html、.htm、.php等等)

  9、允许搜索引擎访问特定目录中的网页

  User-agent: *

  Allow: /目录1/目录2(允许访问目录2中的网页)

  Allow: /目录3/目录4(允许访问目录4中的网页)

  Allow: /目录5/目录6(允许访问目录6中的网页)

  Disallow: /目录1/

  Disallow: /目录3/

  Disallow: /目录5/

  10、阻止搜索引擎访问网站中特定某一文件格式的文件(注意不是网页)

  User-agent: *

  Disallow: /*.(文件格式:如gif、jpg等等)$

  以上是一些常用的格式。具体的写法还要以各个网站需求而定。写robots.txt还要注意以下一些问题:

  1、robots.txt文件是以纯文本格式保存的txt文件。

  2、robots.txt必须防止在网站的根目录中。最上层的robots.txt文件必须这样被访问:如http://www.wanseo.com/robots.txt

  3、书写robots.txt时要严格按照以上大小写形式书写

  4、通常你的网站如果比较简单,那么以上的格式足够你使用的了。如果比较复杂,需要访问这里而又不需要访问那里,禁止这个文件又要允许那个文件,允许访问访问带有“?”符号的特定网页等等,那么你需要结合以上格式仔细研究合适于你网站的robots.txt文件写法。

  5、robots.txt通常在某个分目录中还可以存在,但是如果与顶级目录中的robots.txt有冲突,则以顶级目录中robots.txt命令为准。

  6、仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件或者创建一个内容为空的robots.txt文件。这一点通常被人们忽略,实际上建立空的robots.txt文件对搜索引擎非常不友好。

  7、如果你不想自己动手写robots.txt文件,那么请Google帮你写。登录Google网站管理平台,有生成robots.txt文件的功能。

  8、User-agent: *

  Disallow: /

  这种格式不仅仅是禁止抓取页面,更重要的是如果你的网站被收录了,然后又把robots.txt文件修改成以上格式,那么你的网站将在搜索引擎中被删除,整个地删除。

  9、元标记对于一般的网站来说可有可无,不过你还是得了解:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">(允许抓取该页面,允许跟着该页面上的链接继续抓取)
        <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">(不允许抓取该页面,允许跟着该页面上的链接继续抓取)
        <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">(允许抓取该页面,不允许跟着该页面上的链接继续抓取)
        <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">(不允许抓取该页面,不允许跟着该页面上的链接继续抓取)

  10、需要删除一些被搜索引擎收录的特定网页,参考http://www.google.com/support/webmasters/bin/answer.py?answer=35301

  貌似目前只有Google这么做。

  本文来自安徽SEO(www.wanseo.com)。原文http://www.wanseo.com/node/47 转载请保留出处及原文地址。

时间: 2024-10-29 09:47:31

比较全的robots.txt介绍的相关文章

robots.txt的介绍和写作

目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用.本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录.所以下面这篇文章,就来介绍robots.txt的作用和写作 robots.txt基本介绍 robots 是一个纯文本文件,是用来告诉搜索引擎:当前这个网站上哪些部分可以被访问.哪些不可以,robots文件是存放在网站根目录下的一个纯文本文件.当搜索引擎访问一个网站时,它首先会检查该网站根目录下是否存在robots

robots.txt 指南-介绍[翻译]

原文:http://javascriptkit.com/howto/robots.shtml译者:Tony Qu,BluePrint翻译团队     有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有

详细介绍搜索引擎robots.txt文件

前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录.当时感觉很不对劲,检查来检查去也没有检查出什么问题,后来登录Googlehttp://www.aliyun.com/zixun/aggregation/8984.html">网站管理员中心诊断网站才看到robots文件组织任何搜索引擎蜘蛛访问才发现问题,改过之后,收录正常. 前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录.当时感觉很不对劲,检查来检

教你robots.txt设置方法技巧

在SEO优化网站当中,做好robots.txt至关重要因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt文件来引导搜索引擎爬取;合理的使用robots文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段,但是好多做seo的朋友对于robots的文件使用不是特别了解,仅仅知道Disallow是禁止,allow是允许,以及一些常用的搜索引擎的访问禁止写法,对于在复杂的一些不知道如何去写,其实本人开始也对于robots不知道如何着手去写,但是随着做

ROBOTS.TXT指南

Robots.txt指南 当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件.Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的.这就是大家在网络上常看到的"拒绝Robots访问标准"(Robots Exclusion Standard).下面我们简称RES. Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成.这些记录通过空行分开.其中每条

两个方法检查网站robots.txt是否合理

看了很多网站优化的文章,都很少提及如何检查网站的robots.txt,大多就说明一下robots.txt要设置好.对于高手来讲,这是小菜一碟,可以轻松判断robots.txt是否合理,但对于一些菜鸟来讲,根本无法判断自己网站的robots.txt是否合理,一个错误的robots.txt文件会使搜索引擎机器无法挖掘你的网站,其结果是你的新内容无法列举在搜索引擎的索引中.这对网站站长来说是一个巨大的损坏.如果你做错了什么并重新编辑 robots.txt文件的话,它需要两个星期才能看到效果.因此一个正

浅谈网站优化robots.txt文件的写法

robots.txt文件,相比朋友们都或多或少的听说过,也可能自己已经写过了.其实到目前为止我本人还没写过robots.txt文件,不是不会写,只是感觉博客中没什么内容需要阻止蜘蛛抓取的.而且想必大家也知道一个个人独立博客中出现死链接的概率应该是非常小的,不需要过多的进行死链接处理所以我感觉没什么必要.但是robots.txt文件写法作为个人站长的必须掌握的技能之一,其用处还是很广泛的.这里就详细介绍下,也算是自己温习温习. 什么是robots.txt文件 我们从这个文件名来看,它是.txt后缀

robots.txt是什么

robots.txt基本介绍  robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容.  当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围:如果该文件不存在,那么搜索机器人就沿着链接抓取.  另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写.  robots.txt写

Robots.txt写法详解及注意事项

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 之前由写过"Robots"标签与robots.txt区别只是简单的对robots.txt作了下介绍,这里武汉seo闲人为大家详细的介绍下robots.txt写法详解及注意事项. 一.robots.txt是干什么用的 robots.txt写法详解及注意事项 一个网站中有很多个文件,其中包含了后台程序文件.前台模板文件.图片等