分析robots.txt禁止页面出现在搜索结果中的影响

 

  有的是时候,你会惊奇的发现,明明在robots.txt中禁止收录的页面,却出现在了搜索引擎结果列表中,特别是在site:的时候最容易发现。这是你可千万不要惊慌,去怀疑是否robots.txt语法规则写错了。

  robots.txt里禁止的页面为什么出现在搜索结果中

  robots.txt禁止抓取的文件搜索引擎将不访问,不抓取。但要注意的是,被robots.txt禁止抓取的URL还是可能出现在搜索结果中,只要有导入链接指向这个URL,搜索引擎知道这个URL的存在,虽然不会抓取页面内容,但是可能以下面几种形式显示在搜索结果中:

  只显示URL,没有标题、描述。

  显示开发目录或雅虎等重要目录收录的标题和描述。

  显示导入链接锚文字作为标题和描述。

  之所以这样处理的重要原因是,搜索引擎虽然不搜录该页面,但由于有很多链接链向这个页面,因此它认为这个页面是有价值的,可能和用户在这发生的搜索行为目的有密切关系,因此显示出来,但为了尊重站长,又不显示URL的详细信息。

  


 

  如上图中,谷歌仍然将本站的一个跳转链接显示在搜索结果中,并在网址下方提示“由于本站的robots.txt,系统未提供…”,而结果标题不是这个跳转页面的<title>,而是链接到这个跳转页面的锚文本,你可以试试上面的那个地址,验证效果。

  如何真正实现禁止收录

  这里要谈的不是“禁止收录”,而是“禁止索引”,上述情况就是禁止收录了,但搜索引擎仍然对网页进行索引,在用户需要时返回它认为可靠的信息。在已经添加到robots.txt中作为规则之后,为了彻底将这些页面从搜索引擎结果列表中去除,我们可以通过以下几种方式。

  1、使用meta robots标签

  在这个不像被收录(索引)的页面头部加上下面的代码

        <meta name="ROBOTS" content="NOINDEX,NOFOLLOW,NOARCHIVE" />

  其中NOINDEX即禁止索引本页,搜索引擎中将不会返回本页作为结果。NOARCHIVE指不建立快照,百度支持它,百度好像暂不支持NOINDEX。NOFOLLOW指蜘蛛不会跟随本页内的链接继续爬行,也不会传递本页的权重。注意一个事实,链接流动和传递权重是与禁止索引不等效的,也就是说,如果你只是使用下面的代码,那么这个页面将不会被返回到搜索结果中,但是页面上的链接还是会被蜘蛛爬行,权重还是会顺着它们往下传递。

<meta name="ROBOTS" content="NOINDEX,NOARCHIVE" />

  2、在链接向这个页面的锚链接加rel=”nofollow”

  既然你已经在robots.txt中禁止抓取这个页面,肯定不想让其他链接来到这个页面,因此,你可以在链接上加上rel=”nofollow”,这样蜘蛛就不会再跟着这条链接爬到你禁止抓取的页面了,也不会把权重传到那个页面了。不过如果锚链接是别人写在他们自己的网站里面,这就没有办法了,只能使用第一种方法。

  这种现象对SEO有什么影响

  首先,我们需要明确,到底该不该禁止这些页面的搜录。网页禁止收录的原因有多种,或许你不希望别人查看你的隐私,或许由于网页的内容不重要,或许这个网页就像我的一样是一个跳转页面,最好不要收录。可是,这种不收录是否对SEO有比较好的影响才是我所关注的,如果不收录导致坏的SEO影响,而那些页面也无关紧要,那我们就让它收录不就可以了。可是,这种不收录的影响具有两面性,有时好,有时坏,要看如何操作。

  如果由于网页价值差,而不搜录页面,未尝不可,但是如果由于禁止了这个网页的收录,也就失去了链接流的传递环节,网站内的链接由此断裂了,导致权重传递在这里中断甚至消失,那么就是坏的影响。例如某一个在线留言页面,站长觉得它不重要,也不希望其中的内容在搜索结果中展现,因此禁止它收录了,但是一个网站结构的页面只有从这个页面才能进入,那么这样的话,这个页面就没有办法被搜索引擎抓取了,可是正是由于这个页面把网站结构串联起来,是一个非常关键的页面,这样一来,网站就面临了巨大的损失。另一种情况是,大量的网页链接到这个页面,它集中了大量的权重,可是你却规定它不被收录,这样一来它所获得的这些权重就浪费了,也不传递给别的网页,这就是权重黑洞。

  当然也有好的影响,例如上述我的网站的跳转页面,我将它们禁止收录之后,它们就不会出现在搜索结果中,用户不可能进入这种没有意义的页面,更不可能进入我的网站,还没停上半秒钟就进入别人的网站。另外,我在导入这些跳转页面的链接上加了rel=”nofollow”,既防止了页面被抓取,也避免了将权重传递到其他网站。

  不过也有人利用这种robots.txt的特性来欺骗搜索引擎,例如有人制作了一个H网页,由于它的内容是不好的,因此他用robots.txt将它隐藏起来,但是又不禁止收录,并且在其他网站做了一些外链,而这些外链的锚文本与网页的内容没有关系。在这种操作下,就会出现我在上文中给出的那张图片一样,搜索结果的标题是锚文本的标题,但实际网页内容是另外的内容,以实现欺骗搜索引擎和用户的目的。

时间: 2024-11-08 23:31:53

分析robots.txt禁止页面出现在搜索结果中的影响的相关文章

百度为什么抓取被robots.txt禁止的文件

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 前段时间互联网界对360不遵守robots.txt文件进行了群批,百度也强调自己是遵守robots.txt协议的.但从最近对某网站的分析来看,百度对robots.txt文件的遵守很不彻底.11月15号,我写了一篇文章各搜索蜘蛛对robots.txt文件改动的反应, 因为在11月13号左右,我在我从事的网站上放了robots.txt文件,明确禁

bootstrap-如何使打开的页面出现在当前div中

问题描述 如何使打开的页面出现在当前div中 新手遇到个问题,请各位高手帮忙指点: jsp页面,使用bootstrap框架,左边是菜单,右边div中显示子页面,当此div中加载页面a.jsp时,需要在a.jsp中加个按钮,单击按钮打开b.jsp,如何将b.jsp加载到此div中? 解决方案 include 就能做到,jstl也行 解决方案二: 最简单的是用jquery的load http://blog.csdn.net/linlin_juejue/article/details/8211291

robots.txt禁止搜索引擎收录的方法

搜索引擎 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站( 比如http://www.abc.

分析Robots.txt规则误区 百度和Googlerobots工具使用

前段时间写了篇robots.txt文件怎么写,但是通过实际观察,有些朋友对于robots.txt文件的规则还是有一定的误区. 比如有很多人这样写: User-agent: * Allow: / Disallow: /mulu/ 不知道大家有没有看出来,这个规则其实是不起作用的,第一句Allow: / 指的是允许蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容. 表面上看这个规则想达到的目的是:允许蜘蛛爬行除了/mulu/之外的网站所有页面. 但是搜索引

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文

Robots.txt的写法和利用百度站长平台工具自动生成

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度站长平台提供了一个很好的robots.txt自动生成工具,利用它我们可以很方便的写出robots.txt,通过robots.txt阻止搜索引擎收录你不想要被收录的页面及目录,还可以阻止及引导蜘蛛爬行更多的页面,减少蜘蛛的爬行量,提高蜘蛛的爬行效率,有效的提升更多的页面被收录. 前面我们介绍了通过IIS日志分析让你更好的了解网站运行情况,可

robots.txt和Robots META标签

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 作者:平文胜 我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一

详细介绍搜索引擎robots.txt文件

前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录.当时感觉很不对劲,检查来检查去也没有检查出什么问题,后来登录Googlehttp://www.aliyun.com/zixun/aggregation/8984.html">网站管理员中心诊断网站才看到robots文件组织任何搜索引擎蜘蛛访问才发现问题,改过之后,收录正常. 前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录.当时感觉很不对劲,检查来检

两个方法检查网站robots.txt是否合理

看了很多网站优化的文章,都很少提及如何检查网站的robots.txt,大多就说明一下robots.txt要设置好.对于高手来讲,这是小菜一碟,可以轻松判断robots.txt是否合理,但对于一些菜鸟来讲,根本无法判断自己网站的robots.txt是否合理,一个错误的robots.txt文件会使搜索引擎机器无法挖掘你的网站,其结果是你的新内容无法列举在搜索引擎的索引中.这对网站站长来说是一个巨大的损坏.如果你做错了什么并重新编辑 robots.txt文件的话,它需要两个星期才能看到效果.因此一个正