robots.txt的介绍和写作

  目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用。
本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录。所以下面这篇文章,就来介绍robots.txt的作用和写作

robots.txt基本介绍
  robots 是一个纯文本文件,是用来告诉搜索引擎:当前这个网站上哪些部分可以被访问、哪些不可以,robots文件是存放在网站根目录下的一个纯文本文件。当搜索引擎访问一个网站时,它首先会检查该网站根目录下是否存在robots文件。robots文件必须放置在一个网站的根目录下,而且文件名必须全部小写。
我们做的网站肯定希望被收录,因为网站流量的一部分或者是大部分都是来自搜索,所以对网站来说是很重要的。问题是:我们有的网站内容不希望杯搜索到,那么怎么办呢?在这种情况下,我们就有必要会用到robots文件,来与搜索引擎沟通。所有的搜索引擎蜘蛛自动在网站根目录中寻找这个文件,所以你只需创建它并上传,然后等待蜘蛛来阅读。
  另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。当需要完全屏蔽文件时,需要配合meta的robots属性。

robots.txt写作语法
首先,我们来看一个robots.txt范例:

# All robots will spider the domain
User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问当前站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

1.允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file

2.禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /

3.只允许某个搜索引擎的访问,我用e来代替
User-agent: e
Disallow:
在Disallow:后面不加任何东西,意思是仅允许e访问该网站。

4.禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

5.禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /

6.使用”$”限制访问url
User-agent: *
Allow: .htm$
Disallow: /
意思是仅允许访问以”.htm”为后缀的URL

7禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*

8.禁止搜索引擎F抓取网站上所有图片
User-agent: F
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
意思是只允许引擎抓取网页,禁止抓取任何图片(严格来说,是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。)

9.只允许搜索引擎E抓取网页和.gif格式图片
User-agent: E
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片

10.Sitemap:sitemap是给搜索引擎爬虫指路的地图,引导搜索引擎爬虫去抓取相应的地址
sitemap在robots文件的写法如下:
Sitemap:http://***.com/sitemap.txt
切记S是大写的!

 

注意事项
1.网站应该要有一个robot.txt文件,
2.绝大多数的搜索引擎机器人都遵守robots文件的规则,
3.文件名是小写字母。
4.要提醒大家的是:robots.txt文件一定要写对,如果不太会写,还是要先了解再写,以免给网站的收录带来麻烦。

 

时间: 2024-09-27 07:21:03

robots.txt的介绍和写作的相关文章

robots.txt 指南-介绍[翻译]

原文:http://javascriptkit.com/howto/robots.shtml译者:Tony Qu,BluePrint翻译团队     有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有

robots.txt是什么

robots.txt基本介绍  robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容.  当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围:如果该文件不存在,那么搜索机器人就沿着链接抓取.  另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写.  robots.txt写

如何写robots.txt?

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作. robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索蜘

比较全的robots.txt介绍

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录.当时感觉很不对劲,检查来检查去也没有检查出什么问题,后来登录Google网站管理员中心诊断网站才看到robots文件组织任何搜索引擎蜘蛛访问才发现问题,改过之后,收录正常. robots.txt文件的写法你知道多少呢?对比一下下面的例子: 1.禁止

详细介绍搜索引擎robots.txt文件

前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录.当时感觉很不对劲,检查来检查去也没有检查出什么问题,后来登录Googlehttp://www.aliyun.com/zixun/aggregation/8984.html">网站管理员中心诊断网站才看到robots文件组织任何搜索引擎蜘蛛访问才发现问题,改过之后,收录正常. 前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录.当时感觉很不对劲,检查来检

站长要孰知搜索协议 小心栽倒在robots.txt文件上

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 俗话说:懂技术的不一定懂SEO,懂SEO的不定懂技术,但是对于站长们来说,必选要孰知最基本的技术,不要求懂得高深的语言,但是基本的搜索引擎协议是需要孰知的.跟站长们交流的时候发现,很多站长都无法正确抓握搜素协议,特别是在robots.txt文件上,北京兼职吧给大家说说此协议到底深奥在何处. robots.txt文件是网站根目录下面的纯文本文件

切身经验,搜索引擎指南robots.txt文件技巧

相信各位站长都是动态CMS建站,那么,网站根目录下应该会有个Template模板文件夹,如果不想让搜索引擎抓取Template模板文件夹下的模板文件,那么在写robots.txt文件时候应该注意一点:(非常主要) 例一:"Disallow:/Template"是指/help.html 和/Template/index.html都不允许搜索引擎蜘蛛抓取.例二:"Disallow:/Template/"是指允许搜索引擎蜘蛛抓取/Template.html,而不能抓取/T

教你robots.txt设置方法技巧

在SEO优化网站当中,做好robots.txt至关重要因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt文件来引导搜索引擎爬取;合理的使用robots文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段,但是好多做seo的朋友对于robots的文件使用不是特别了解,仅仅知道Disallow是禁止,allow是允许,以及一些常用的搜索引擎的访问禁止写法,对于在复杂的一些不知道如何去写,其实本人开始也对于robots不知道如何着手去写,但是随着做

ROBOTS.TXT指南

Robots.txt指南 当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件.Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的.这就是大家在网络上常看到的"拒绝Robots访问标准"(Robots Exclusion Standard).下面我们简称RES. Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成.这些记录通过空行分开.其中每条