robots.txt是什么

robots.txt基本介绍 

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。 

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。 

robots.txt写作语法 

首先,我们来看一个robots.txt范例:http://www.csswebs.org/robots.txt 

访问以上具体地址,我们可以看到robots.txt的具体内容如下: 

# Robots.txt file from http://www.csswebs.org 
# All robots will spider the domain 

User-agent: * 
Disallow: 

以上文本表达的意思是允许所有的搜索机器人访问www.csswebs.org站点下的所有文件。 

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。 

下面,我将列举一些robots.txt的具体用法: 

允许所有的robot访问 

User-agent: * 
Disallow: 

或者也可以建一个空文件 “/robots.txt” file 

禁止所有搜索引擎访问网站的任何部分 

User-agent: * 
Disallow: / 

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录) 

User-agent: * 
Disallow: /01/ 
Disallow: /02/ 
Disallow: /03/ 

禁止某个搜索引擎的访问(下例中的BadBot) 

User-agent: BadBot 
Disallow: / 

只允许某个搜索引擎的访问(下例中的Crawler) 

User-agent: Crawler 
Disallow: 

User-agent: * 
Disallow: / 

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍: 

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。 

Robots META标签的写法: 

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。 

INDEX 指令告诉搜索机器人抓取该页面; 

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去; 

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。 

这样,一共有四种组合: 

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”> 
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”> 
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”> 
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”> 

其中 

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>; 

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”> 

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如: 

<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

时间: 2024-11-10 00:57:07

robots.txt是什么的相关文章

robots.txt 指南-介绍[翻译]

原文:http://javascriptkit.com/howto/robots.shtml译者:Tony Qu,BluePrint翻译团队     有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文

教你robots.txt设置方法技巧

在SEO优化网站当中,做好robots.txt至关重要因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt文件来引导搜索引擎爬取;合理的使用robots文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段,但是好多做seo的朋友对于robots的文件使用不是特别了解,仅仅知道Disallow是禁止,allow是允许,以及一些常用的搜索引擎的访问禁止写法,对于在复杂的一些不知道如何去写,其实本人开始也对于robots不知道如何着手去写,但是随着做

robots.txt禁止搜索引擎收录的方法

搜索引擎 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站( 比如http://www.abc.

如何写robots.txt 文件?

robots.txt文件是放在网站的根目录下,作用是告诉搜索引擎网站的哪些文件,哪些目录可以被索引,哪些不要索引.因此,这个文件是相当的重要,正确书写好robots.txt文件,可以保证你的网页被搜索引擎正确地索引.收录. 书写robots.txt文件时,要使用纯文本的编辑器,使文件是纯文本的格式.robots.txt文件的结构还是比较简单的.它是由一行一行的纪录组成,每行由两个部份组成:<Field> : <value> <Field> 有两种,一个是User-age

搜索引擎指南robots.txt文件

搜索引擎 有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的. 创建robots.txt文件 好,现在我们开始行动.创建

ROBOTS.TXT指南

Robots.txt指南 当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件.Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的.这就是大家在网络上常看到的"拒绝Robots访问标准"(Robots Exclusion Standard).下面我们简称RES. Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成.这些记录通过空行分开.其中每条

分析robots.txt禁止页面出现在搜索结果中的影响

  有的是时候,你会惊奇的发现,明明在robots.txt中禁止收录的页面,却出现在了搜索引擎结果列表中,特别是在site:的时候最容易发现.这是你可千万不要惊慌,去怀疑是否robots.txt语法规则写错了. robots.txt里禁止的页面为什么出现在搜索结果中 robots.txt禁止抓取的文件搜索引擎将不访问,不抓取.但要注意的是,被robots.txt禁止抓取的URL还是可能出现在搜索结果中,只要有导入链接指向这个URL,搜索引擎知道这个URL的存在,虽然不会抓取页面内容,但是可能以下

新站不收录不要忽略了robots.txt文件

今天无意中看到一位站长朋友的诉说,讲的是他新站为什么没有被收录,从发现问题的原因到解决问题中一系列的工作.感觉比较典型,很多人可能会遇到,现在贴出来分享给大家. 问题原因: 该站长在新站上线后不久,网站内部就出现了重大的bug(漏洞).该站长先用robots.txt文件屏蔽了搜索引擎的的抓取,然后对网站的bng进行修复. 问题处理: 等到网站的bug修复完成后,该网友再次对robots.txt文件进行了修改,允许所有搜索引擎的抓取.表面上看做到这一步就可以等搜索引擎过来抓取内容了,可是一个星期过

浅谈Robots.txt 文件给网站带来的好处

作为一名网站优化人员,我们都很清楚Robots.txt文件对我们网站的重要性,Robots.txt文件只是一个纯文本文件,它就像网站地图一样,给搜索引擎指明道路,当蜘蛛搜索一个站点时,它首先爬行来检查该网站的根目录下是否存在Robots.txt文件,如果存在的话,搜索引擎会按照该文件的内容来确定访问范围,如果该文件不存在的话,那么搜索引擎就会沿着链接来抓取.那么程序员在设置Robots.txt文件时候应该了解到这个文件给我们网站带来了哪些好处? 第一, Robots.txt文件大大节省服务器宽带