详细介绍搜索引擎robots.txt文件

  前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录。当时感觉很不对劲,检查来检查去也没有检查出什么问题,后来登录Google">网站管理员中心诊断网站才看到robots文件组织任何搜索引擎蜘蛛访问才发现问题,改过之后,收录正常。

  前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录。当时感觉很不对劲,检查来检查去也没有检查出什么问题,后来登录Google网站管理员中心诊断网站才看到robots文件组织任何搜索引擎蜘蛛访问才发现问题,改过之后,收录正常。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

  robots.txt文件的写法你知道多少呢?对比一下下面的例子:

  1、禁止所有搜索引擎访问网站的任何部分,也就是是禁止任何搜索引擎收录你的网站。

  User-agent: *

  Disallow: /

  2、允许所有的搜索引擎访问你的网站的任何部分,这是通常的用法。

  User-agent: *

  Disallow:

  或者

  User-agent: *

  Allow: /

  3、仅禁止某一搜索引擎访问你的网站。百度是baiduspider Google是googlebot

  User-agent: baiduspider

  Disallow: /

  或者

  User-agent: googlebot

  Disallow: /

  4、仅仅允许某一搜索引擎访问你的网站。同样百度是baiduspider Google是googlebot

  User-agent: baiduspider

  Disallow:

  或者

  User-agent: googlebot

  Disallow:

  5、如果你网站的某个目录不希望被搜索引擎收录,写法如下:

  User-agent: *

  Disallow: /目录名称1/

  Disallow: /目录名称2/

  Disallow: /目录名称3/

  注意:不能写成Disallow: /目录名称1/ /目录名称2/ 这样的形式,每个目录要单独另起一行特别说明。

  6、禁止搜索引擎访问网站中所有的动态页面(动态页面就是URL中任何带有“?”的页面)

  User-agent: *

  Disallow: /*?*

  7、仅仅允许搜索引擎访问某一特定文件后缀形式的网页。

  User-agent: *

  Allow: .后缀形式(如.html、.htm、.php等等)$

  Disallow: /

  8、限制搜索引擎访问某一特定文件后缀形式的网页。

  User-agent: *

  Disallow: /*.后缀形式(如.html、.htm、.php等等)

  9、允许搜索引擎访问特定目录中的网页

  User-agent: *

  Allow: /目录1/目录2(允许访问目录2中的网页)

  Allow: /目录3/目录4(允许访问目录4中的网页)

  Allow: /目录5/目录6(允许访问目录6中的网页)

  Disallow: /目录1/

  Disallow: /目录3/

  Disallow: /目录5/

  10、阻止搜索引擎访问网站中特定某一文件格式的文件(注意不是网页)

  User-agent: *

  Disallow: /*.(文件格式:如gif、jpg等等)$

  以上是一些常用的格式。具体的写法还要以各个网站需求而定。写robots.txt还要注意以下一些问题:

时间: 2024-10-31 09:26:40

详细介绍搜索引擎robots.txt文件的相关文章

解析各大搜索引擎对robots.txt文件的反应

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 一直都没有看到个具体的robots.txt文件在各个搜索引擎的执行情况如何,最近,我特意针对robots.txt文件对于各大搜索引擎做了个实验,看他们这一自己说是明文遵守的协议,落实到实际中去执行又是个什么状况.下面我就针对各大搜索引擎对robots.txt文件的反应测试数据,给大家详细讲解下,以供大家平时参考. 首先这个网站在百度,GOOG

切身经验,搜索引擎指南robots.txt文件技巧

相信各位站长都是动态CMS建站,那么,网站根目录下应该会有个Template模板文件夹,如果不想让搜索引擎抓取Template模板文件夹下的模板文件,那么在写robots.txt文件时候应该注意一点:(非常主要) 例一:"Disallow:/Template"是指/help.html 和/Template/index.html都不允许搜索引擎蜘蛛抓取.例二:"Disallow:/Template/"是指允许搜索引擎蜘蛛抓取/Template.html,而不能抓取/T

搜索引擎指南robots.txt文件

搜索引擎 有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的. 创建robots.txt文件 好,现在我们开始行动.创建

浅谈网站优化robots.txt文件的写法

robots.txt文件,相比朋友们都或多或少的听说过,也可能自己已经写过了.其实到目前为止我本人还没写过robots.txt文件,不是不会写,只是感觉博客中没什么内容需要阻止蜘蛛抓取的.而且想必大家也知道一个个人独立博客中出现死链接的概率应该是非常小的,不需要过多的进行死链接处理所以我感觉没什么必要.但是robots.txt文件写法作为个人站长的必须掌握的技能之一,其用处还是很广泛的.这里就详细介绍下,也算是自己温习温习. 什么是robots.txt文件 我们从这个文件名来看,它是.txt后缀

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文

浅谈网站地图链接放在robots.txt文件里的用处

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 把网站地图链接放在robots.txt文件里,好处就是站长不用到每个搜索引擎的站长工具或者相似的站长部分去提交自己的sitemap文件.这样的方法可以帮助站长减轻工作. 各大搜索引擎都发布了对网站地图的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的链接.目前对此表示支持的搜索引擎公司有Google, Yahoo,而

搜索引擎robots.txt基础写法

首先,我们从其定义讲到其使用方法,方便广大seoer更加精准的使用rotbots.txt使用. 一.定义: robots.txt 是存放在站点根目录下的一个纯文本文件,让搜索蜘蛛读取的txt文件,文件名必须是小写的"robots.txt". 二.作用: 通过robots.txt可以控制搜索引擎收录内容,告诉蜘蛛哪些文件和目录可以收录,哪些不可以收录. 三.robots.txt 放置位置 robots.txt文件应该放置在网站根目录下.举例来说,当spider访问一个网站 (比如 htt

如何放置Robots.txt文件

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制.这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件.如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt是一个简单有效的工具.这里简单介绍一下怎么使用它. 如何放置Robots.txt文件 robots

网站配置robots.txt文件供大家参考

robots文件是什么? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容.robots.txt文件放在哪里? robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站(比如http://www.ithov.com)时,首先会检查该网