谈谈关于Robots.txt的几个要点

  从事seo优化的工作人员必须要了解Robots.txt ,这是一个合格的seoer必须了解的知识。那么,到底robots有什么需要了解的呢?

  首先,作为一名合格的seo工作人员,必须要了解,Robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的,以及什么文件是不允许被蜘蛛程序抓取的。

  通常情况下,当蜘蛛来到你的网站以后,首先就是要看根目录下是否存在robots.txt这个文件,如果存在,则蜘蛛遵循robots.txt的协议;如果不存在,则蜘蛛会默认爬取网站的所有文件。

  了解了这些,想必大家都了解到robots的重要性了,那么到底robot的写法有哪些要点呢?今天烟台腋臭之家就谈一下自己的一些看法:

  1. robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写.

  2. 常用命令

  User-agent: 定义搜索引擎的类型

  Disallow: 定义禁止搜索引擎收录的地址

  Allow: 定义允许搜索引擎收录的地址

  Sitemap:定义搜索引擎爬取的网站地图的地址

  3. 对于User-agent的写法,有些需要注意的方面

  User-agent: *

  这里的*代表的所有的搜索引擎种类,*是一个通配符。如果要对特定的蜘蛛程序进行限制,则需要改变写法。利于对google蜘蛛添加特定的指令,则需要写成 User-agent: Googlebot ;写成这样的的定义类型,下面再写针对其的特殊协议,如Allow和Disallow等。

  4. Disallow和Allow分别代表禁止抓取和允许抓取,在后边写上相应的地址就可以。如Disallow: /tmp/ ,这样就是要禁止抓取tmp目录了。

  而对于要特别限制针对某种类型文件的写法,则需要了解一下$ 这个符号了。$ 代表的是匹配网址的结束字符,如 /.jpg$ ,这样的形式就是表示后缀名为jpg的所有文件了。这样再加上Disallow和Allow命令就可以限制抓取了。

  5. Sitemap的写法

  Sitemap的写法必须采用绝对地址,即Sitemap:http://www.xx.com/map.xml ;写成这样的形式才能被蜘蛛读取,如果写成相对地址的形式,则会提示语法错误。

  另外,还需要注意的一点,就是Sitemap的网站地图必须要在网站的根目录下才有效。

  6. 目前用Robots.txt来限制搜索引擎蜘蛛抓取站点内容的办法只是一种规则,需要搜索引擎蜘蛛的配合才行,并不是每个蜘蛛都全部遵守Robots.txt的。

  以上6点就是烟台腋臭之家关于Robots.txt的一些看法,相信会对一些seo新手有一定的帮助吧。本文由烟台腋臭之家http://www.tua9.com 供稿,转载请注明出处。

时间: 2024-09-20 00:42:06

谈谈关于Robots.txt的几个要点的相关文章

关于WordPress的robots.txt文件的那些事

安装完wordpress站点后关于robots.txt文件的书写一直烦恼着很多站长,Robots.txt文件协议又叫搜索引擎机器人协议,搜索引擎爬虫在爬取网站的时候,首先会看网站根目录下是否有robots.txt文件,然后遵循robots.txt协议爬取网站主希望搜索引擎爬取的内容.robots.txt文件意在告诉搜索引擎爬虫哪些页面可以爬取,哪些页面不能爬取,可以有效的保护用户的隐私,同时也有利于节省蜘蛛的带宽,从而让蜘蛛爬取更加容易,促进收录. 先来简单的说下robots.txt文件的规则:

robots.txt 指南-介绍[翻译]

原文:http://javascriptkit.com/howto/robots.shtml译者:Tony Qu,BluePrint翻译团队     有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文

教你robots.txt设置方法技巧

在SEO优化网站当中,做好robots.txt至关重要因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt文件来引导搜索引擎爬取;合理的使用robots文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段,但是好多做seo的朋友对于robots的文件使用不是特别了解,仅仅知道Disallow是禁止,allow是允许,以及一些常用的搜索引擎的访问禁止写法,对于在复杂的一些不知道如何去写,其实本人开始也对于robots不知道如何着手去写,但是随着做

robots.txt禁止搜索引擎收录的方法

搜索引擎 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站( 比如http://www.abc.

如何写robots.txt 文件?

robots.txt文件是放在网站的根目录下,作用是告诉搜索引擎网站的哪些文件,哪些目录可以被索引,哪些不要索引.因此,这个文件是相当的重要,正确书写好robots.txt文件,可以保证你的网页被搜索引擎正确地索引.收录. 书写robots.txt文件时,要使用纯文本的编辑器,使文件是纯文本的格式.robots.txt文件的结构还是比较简单的.它是由一行一行的纪录组成,每行由两个部份组成:<Field> : <value> <Field> 有两种,一个是User-age

搜索引擎指南robots.txt文件

搜索引擎 有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的. 创建robots.txt文件 好,现在我们开始行动.创建

ROBOTS.TXT指南

Robots.txt指南 当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件.Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的.这就是大家在网络上常看到的"拒绝Robots访问标准"(Robots Exclusion Standard).下面我们简称RES. Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成.这些记录通过空行分开.其中每条

分析robots.txt禁止页面出现在搜索结果中的影响

  有的是时候,你会惊奇的发现,明明在robots.txt中禁止收录的页面,却出现在了搜索引擎结果列表中,特别是在site:的时候最容易发现.这是你可千万不要惊慌,去怀疑是否robots.txt语法规则写错了. robots.txt里禁止的页面为什么出现在搜索结果中 robots.txt禁止抓取的文件搜索引擎将不访问,不抓取.但要注意的是,被robots.txt禁止抓取的URL还是可能出现在搜索结果中,只要有导入链接指向这个URL,搜索引擎知道这个URL的存在,虽然不会抓取页面内容,但是可能以下