关于WordPress的robots.txt文件的那些事

  安装完wordpress站点后关于robots.txt文件的书写一直烦恼着很多站长,Robots.txt文件协议又叫搜索引擎机器人协议,搜索引擎爬虫在爬取网站的时候,首先会看网站根目录下是否有robots.txt文件,然后遵循robots.txt协议爬取网站主希望搜索引擎爬取的内容。robots.txt文件意在告诉搜索引擎爬虫哪些页面可以爬取,哪些页面不能爬取,可以有效的保护用户的隐私,同时也有利于节省蜘蛛的带宽,从而让蜘蛛爬取更加容易,促进收录。

  先来简单的说下robots.txt文件的规则:

  1、允许所有的搜索引起爬取任何内容

  User-agent: *

  Disallow:

  这个意思就是允许所有的搜索引擎爬取所有的页面,虽然Disallow是不允许的意思,但是后面是放空状态,这意思是没有不允许爬取的页面。

  2、屏蔽其中一种或者几种搜索引擎的爬取,以最近比较火的360综合搜索为例

  User-agent: 360spider

  Disallow: /

  User-agent:*

  Disallow:

  前两行的意思是不允许360综合搜索蜘蛛爬取任何页面,后面的解释见第一点。同理,如果除了屏蔽360综合搜索也想屏蔽百度蜘蛛,那就在开头继续添加。

  3、不允许搜索引擎抓取其中的某些页面,这边以不允许所有搜索引擎爬取wordpress的管理后台页面为例

  User-agent:*

  Disallow:/wp-admin/

  我们都知道,wordpress的管理后台在根目录下的wp-admin文件夹里面,在disallow后面加上/wp-admin的意思就是不允许搜索引擎蜘蛛爬取。

  至于不允许百度爬取后台,允许其他搜索引擎爬取后台,或者不允许360综合搜索爬取后台,允许其他搜索引擎爬取后台等等组合,请参考以上三点内容进行组合。

  回归正题,再来说下wordpress的robots.txt文件书写,其实wordpress的robots文件很简单,主要看3个要点:

  1、网站后台不要蜘蛛爬取

  首先设置不让搜索引擎抓取wordpress后台页面,这几乎是每个站长设置robots.txt文件首要的目的,不仅局限于wordpress,当然,不同的类型网站后台页面所在页面的文件夹名称不一样。

  2、静态化后,动态url不要蜘蛛爬取

  wordpress的url最好还是静态化下,因为过多的动态参数不利于蜘蛛的爬取。但很多站长在静态化url之后,每次发布文章时,搜索引擎收录总会同时收录静态的url和动态的url,这样明显会导致文章页面权重的分散,而且会导致重复页面过多最终受到搜索引擎的惩罚,其实避免这种情况的方法很简单,那就是在robots.txt文件里面设置,让蜘蛛不爬取动态url,这样动态的url就不会被百度收录。

  3、结尾加上xml格式的网站地图

  在robots.txt的结尾加上网站地图,可以让网站地图在蜘蛛爬取网站的时候第一时间被抓取,更利于页面的收录。

  于是,最简单的wordpress的robots.txt的书写如下

  User-agent:*

  Disallow:/wp-admin/

  Disallow:/*?*

  #这意思是不抓取中包含?的url,动态url特征是有?#

  Sitemap:http://www.yourdomain.com/sitemap.xml

  去掉含有#的那行,以及将sitemap中的yourdomain改成你的域名即可,这样一个wordpress的robots.txt文件就完成了,最后将这文件上传到根目录下即可。

  Robots.txt文件书写还有几点需要注意的:

  1、斜杠问题

  首先开头的斜杠是一定要的,结尾有斜杠的话意思是这个目录下的所有页面,如果没有斜杠那屏蔽的既有包括斜杠的,也有不包括斜杠的,比如/wp-admin.html,/wp-admin.php等等页面(举例)。这是两个不同的概念,必须根据需要考虑后面是否加上斜杠。

  2、大小写问题

  除了每行的首字母之外,其他都必须小写。

  3、Disallow和Allow

  其实对于很多新手站长来说,掌握其中一种的写法足以,因为同时被灌输这两种写法很容易导致混绕,所以如果你是新手,那么robots.txt文件最好只使用一种方法即可,防止混绕造成错误。 本文由seo学习网站长张冬龙原创,如需转载请保留原文地址http://www.zhangdonglong.com/archives/578 ,谢谢。

时间: 2025-01-26 17:50:36

关于WordPress的robots.txt文件的那些事的相关文章

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文

如何写robots.txt 文件?

robots.txt文件是放在网站的根目录下,作用是告诉搜索引擎网站的哪些文件,哪些目录可以被索引,哪些不要索引.因此,这个文件是相当的重要,正确书写好robots.txt文件,可以保证你的网页被搜索引擎正确地索引.收录. 书写robots.txt文件时,要使用纯文本的编辑器,使文件是纯文本的格式.robots.txt文件的结构还是比较简单的.它是由一行一行的纪录组成,每行由两个部份组成:<Field> : <value> <Field> 有两种,一个是User-age

搜索引擎指南robots.txt文件

搜索引擎 有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的. 创建robots.txt文件 好,现在我们开始行动.创建

新站不收录不要忽略了robots.txt文件

今天无意中看到一位站长朋友的诉说,讲的是他新站为什么没有被收录,从发现问题的原因到解决问题中一系列的工作.感觉比较典型,很多人可能会遇到,现在贴出来分享给大家. 问题原因: 该站长在新站上线后不久,网站内部就出现了重大的bug(漏洞).该站长先用robots.txt文件屏蔽了搜索引擎的的抓取,然后对网站的bng进行修复. 问题处理: 等到网站的bug修复完成后,该网友再次对robots.txt文件进行了修改,允许所有搜索引擎的抓取.表面上看做到这一步就可以等搜索引擎过来抓取内容了,可是一个星期过

浅谈Robots.txt 文件给网站带来的好处

作为一名网站优化人员,我们都很清楚Robots.txt文件对我们网站的重要性,Robots.txt文件只是一个纯文本文件,它就像网站地图一样,给搜索引擎指明道路,当蜘蛛搜索一个站点时,它首先爬行来检查该网站的根目录下是否存在Robots.txt文件,如果存在的话,搜索引擎会按照该文件的内容来确定访问范围,如果该文件不存在的话,那么搜索引擎就会沿着链接来抓取.那么程序员在设置Robots.txt文件时候应该了解到这个文件给我们网站带来了哪些好处? 第一, Robots.txt文件大大节省服务器宽带

浅谈网站优化robots.txt文件的写法

robots.txt文件,相比朋友们都或多或少的听说过,也可能自己已经写过了.其实到目前为止我本人还没写过robots.txt文件,不是不会写,只是感觉博客中没什么内容需要阻止蜘蛛抓取的.而且想必大家也知道一个个人独立博客中出现死链接的概率应该是非常小的,不需要过多的进行死链接处理所以我感觉没什么必要.但是robots.txt文件写法作为个人站长的必须掌握的技能之一,其用处还是很广泛的.这里就详细介绍下,也算是自己温习温习. 什么是robots.txt文件 我们从这个文件名来看,它是.txt后缀

浅谈网站地图链接放在robots.txt文件里的用处

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 把网站地图链接放在robots.txt文件里,好处就是站长不用到每个搜索引擎的站长工具或者相似的站长部分去提交自己的sitemap文件.这样的方法可以帮助站长减轻工作. 各大搜索引擎都发布了对网站地图的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的链接.目前对此表示支持的搜索引擎公司有Google, Yahoo,而

如何放置Robots.txt文件

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制.这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件.如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt是一个简单有效的工具.这里简单介绍一下怎么使用它. 如何放置Robots.txt文件 robots

网站配置robots.txt文件供大家参考

robots文件是什么? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容.robots.txt文件放在哪里? robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站(比如http://www.ithov.com)时,首先会检查该网