robots.txt文件,相比朋友们都或多或少的听说过,也可能自己已经写过了。其实到目前为止我本人还没写过robots.txt文件,不是不会写,只是感觉博客中没什么内容需要阻止蜘蛛抓取的。而且想必大家也知道一个个人独立博客中出现死链接的概率应该是非常小的,不需要过多的进行死链接处理所以我感觉没什么必要。但是robots.txt文件写法作为个人站长的必须掌握的技能之一,其用处还是很广泛的。这里就详细介绍下,也算是自己温习温习。
什么是robots.txt文件
我们从这个文件名来看,它是.txt后缀名的,大家也应该知道这是一个文本文件,也就是记事本。robots,懂点英语的人应该都人士,是机器人的意思,对我们而言这个机器人代表的就是搜索引擎机器人,从名字上就可以猜到这个文件是我们专门写给蜘蛛看的。它的作用就是告诉蜘蛛,那些栏目或者是那些页面不需要抓取,当然也可以直接屏蔽掉某个蜘蛛的访问。注意,这个文件是放在网站根目录下的,这样才能保证蜘蛛可以在第一时间读取文件内容。
robots文件的作用
其实robots文件最常被我们用到的就是屏蔽网站内的死链接。大家应该知道一个网站死链接多了会影响网站的权重。但是网站死链接清理虽然说不上是麻烦,还是需要花上不少时间的,特别是如果站内死链接较多的情况下,清理起来很费劲,这时候robots文件的用处就体现出来了,我们可以直接将这些死链接按照格式写入文件中阻止蜘蛛抓取,想清理的或以后在慢慢清理。有些网站内容中包含一些站长不想让蜘蛛抓取的url或文件,也可以直接屏蔽。对于屏蔽蜘蛛,用到的一般都比较少。
robots文件的写法
这一点应该是比较重要的了。如果写错了想屏蔽的没成功,想被抓取的却写进去自己不能及时发现可就亏大了。首先我们要知道两个标签,Allow和Disallow,一个是允许,一个是不允许,它的作用相比大家也都能理解。
User-agent: *
Disallow:
或者
User-agent: *
Allow:
这两段内容表示的都是允许抓取所有,实际上屏蔽url和文件用到的是Disallow标签,除非你的网站只有几条想要被抓取采用Allow标签。这个User-agent:后面跟的就是蜘蛛名称,大家对主流的搜索引擎蜘蛛名称应该比较熟悉。下面以搜搜蜘蛛为例:Sosospider。
当我们想屏蔽搜搜蜘蛛的时候:
User-agent: sosospider
Disallow: /
大家可以发现这个屏蔽蜘蛛跟上面允许相比只是多了一个“/”,其含义就起了翻天覆地的变化,所以在书写的时候要千万注意,可不能因为多写个斜杠屏蔽了蜘蛛自己却不知道。还有就是在user-agent:后边不屑固定蜘蛛名称跟的如果是“*”表示是针对所有蜘蛛的。
禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下:
User-agent: *
Disallow: /目录/
注意,这里如果是阻止抓取某目录的话目录名字一定要注意“/”,不带“/”表示的是阻止访问这个目录页面和目录下的页面,而带上“/”则表示进阻止目录下的内容页面,这两点要分清楚。如果是想屏蔽多个目录就需要采用
User-agent: *
Disallow: /目录1/
Disallow: /目录2/
这样的形式,不能采用 /目录1/目录2/ 这样的形式。
如果是阻止蜘蛛访问某一类型的文件,例如阻止抓取.jpg格式的图片可以设置成:
User-agent: *
Disallow: .jpg$
以上是上海seo小马针对整个网站的robots文件的写法,只是讲的robots写法的类型和注意事项,像针对性屏蔽蜘蛛或者是其他的具体写法描述的少了点,但是知道allow和disallow的含义进行思考可以衍生出不少其他的写法含义。还有针对具体网页的robots meta网页标签写法,不过一般情况下用的不是很多。
以上由上海seo小马http://www.mjlseo.com/整理,转载请注明,谢谢