robots.txt使用教程

Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是 否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有 被口令保护的页面。最后,robots.txt必须放置在一个站点的根目录下。

  大家可以参考一下谷歌、百度和腾讯的robots写法:

  http://www.google.com/robots.txt

  http://www.baidu.com/robots.txt

  http://www.qq.com/robots.txt

  大家了解完robots.txt后,那么我们可以用robots.txt来做什么?

  1、用robots.txt屏蔽相似度高的页面或没内容的页面。

  我们知道,搜索引擎教程收录网页后,会对网页进行“审核”,而当两个网页的相似度很高时,那么搜索引擎就会删除掉其中一个,并且会降低一点你网站的得分。

  假设以下这两个链接,内容其实差不多,那么第一个链接就应该屏蔽掉。

  /XXX?123

  /123.html

  像第一个的链接这样的链接非常多,那么我们要怎么屏蔽呢?其实只要屏蔽/XXX?就可以屏蔽所有的链接了。

  代码如下:

  Disallow: /XXX?

  同理,一些没有内容的页面我们也可以利用相同的办法将其屏蔽掉。

  2、用robots.txt屏蔽多余的链接,一般保留静态的链接(既HTML、htm、shtml等)。

  由于网站中经常会出现多个链接指向同一个页面的情况,而这样会让搜索引擎对网站的友好度降低。为了避免这一个情况,我们就可以通过robots.txt把 非主要的链接去掉。

  比如以下两个链接指向同样的页面:

  /OOO?123

  /123.html

  那么我们就应该去掉第一个垃圾,代码如下:

  Disallow: /OOO?123

  3、用robots.txt屏蔽死链

  死链就是曾经存在的网页,因为改版或其他原因而失去效用后就变成死链,也就是说看似一个正常的网页链接,但点击后不能打开相对应的网页页面。

  比如,原来在目录为/seo下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把他屏蔽掉,代码如下:

  Disallow: /seo/

  4、告诉搜索引擎你的sitemap.xml地址

  利用robots.txt可以告诉搜索引擎你sitemap.xml文件的地址,而不需要在网站上添加sitemap.xml的链接。具体代码如下:

  Sitemap: 你的sitemap地址

  以上就是robots.txt的基本用法,一个好的网站必定会有一个好的robots.txt,因为robots.txt是搜索引擎了解你网站的一 个途径。另外在这里我推荐一下一个比较适合wordpress用户使用的robots.txt写法:

  User-agent: *

  Disallow: /wp-

  Disallow: /feed/

  Disallow: /comments/feed

  Disallow: /trackback/

  Sitemap: http://rainjer.com/sitemap.xml

  最后,如果你觉得上面所说的还不能满足你的需要,那么你可以在谷歌或百度官方提供的robots.txt使用指南学习:

  百度:http://www.baidu.com/search/robots.html

  谷歌:http://www.google.com/support/forum/p/webmasters/thread?tid=4dbbe5f3cd2f6a13&hl=zh-CN

时间: 2024-09-07 04:28:08

robots.txt使用教程的相关文章

网站优化:robots.txt使用教程

首先,我来介绍一下什么是robots.txt:robots.txt是搜索引擎中访问网站的时候要查 看的第一个文件.Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的.当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是 否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有 被口令保护的页面.最后,robots.txt必须放置在一个站点的根目录下. 大家可以参考一下谷歌.百度和腾讯的

网站配置robots.txt文件供大家参考

robots文件是什么? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容.robots.txt文件放在哪里? robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站(比如http://www.ithov.com)时,首先会检查该网

站长不要忽视robots.txt的存在

认识了很多站长,大多数会使用robots.txt文件,只有40%左右的站长不知道robots.txt文件的重要性.当然了,如果你的网站完全没有让搜索引擎教程禁止的内容,可以不用robots.txt文件. 到底robots.txt是何许人也? robots.txt是一个纯文本文件,它就像网站地图一样,给搜索引擎指明道路..当搜索引擎蜘蛛爬取网站的时候,一般会确实你网站的目录下是否有robots.txt这个文件.如果有的话,会按照文件的内容来爬取该爬的网站内容.如果没有这个文件,蜘蛛就会跟着链接直接

错误的robots.txt 百度K站没商量

相信很多站长都很清楚robots.txt文件,robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的.A5优化小组http://seo教程.admin5.com/认为robots.txt文件重要作用就是robots.tx可以屏蔽重复的内容收录,避免同一个网页被百度收录N次.robots.txt虽然很是重要,但是很少有站长能够正确配置伪静态文件,即使是大企业大人物的网站,也很难正确配置好robots.txt. 比如康盛

robots.txt 指南-介绍[翻译]

原文:http://javascriptkit.com/howto/robots.shtml译者:Tony Qu,BluePrint翻译团队     有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文

教你robots.txt设置方法技巧

在SEO优化网站当中,做好robots.txt至关重要因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt文件来引导搜索引擎爬取;合理的使用robots文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段,但是好多做seo的朋友对于robots的文件使用不是特别了解,仅仅知道Disallow是禁止,allow是允许,以及一些常用的搜索引擎的访问禁止写法,对于在复杂的一些不知道如何去写,其实本人开始也对于robots不知道如何着手去写,但是随着做

robots.txt禁止搜索引擎收录的方法

搜索引擎 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站( 比如http://www.abc.

如何写robots.txt 文件?

robots.txt文件是放在网站的根目录下,作用是告诉搜索引擎网站的哪些文件,哪些目录可以被索引,哪些不要索引.因此,这个文件是相当的重要,正确书写好robots.txt文件,可以保证你的网页被搜索引擎正确地索引.收录. 书写robots.txt文件时,要使用纯文本的编辑器,使文件是纯文本的格式.robots.txt文件的结构还是比较简单的.它是由一行一行的纪录组成,每行由两个部份组成:<Field> : <value> <Field> 有两种,一个是User-age