随意修改robots.txt 小心搜索引擎不收录你的站

  Robots.txt是用来告诉bot的访问权限,因Robots.txt协议并不是一个规范,而只是约定俗成的,通常大多数搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面,使用方法是将robots.txt文件放在网站根目录下。举例来说,当搜索引擎访问一个网站(比如http://www.admin5.com)时,通常首先会检查该网站中是否存在robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。闲话不扯了,进入正题:

  经本人的试验,对于一个遵守Robots.txt协议的蜘蛛,如果你修改Robots.txt过于频繁,可直接导致将你的站“冷”处理!本人的站就已进入该黑洞了,之前百由于不想让百度蜘蛛收录商品列表的老页面,就直接B了百度蜘蛛访问此页,过了约3天,效果果真明显,小CO还暗喜这蜘蛛真听话,于是乎又想到网站内之前使用的几个页面。现在也用不上了,而此前已被搜索引擎收录了N多页,现在一起B了,于是修改了Robots.txt,这一改不要紧,两于过去了,小CO再也高兴不起来了,可爱的百度蜘蛛再也不哪么勤快了(之前每天在站内爬2万以上),现在几天也不到2万,晕死。上了当就得找原因:上边说过了,一旦B了某个页面,蜘蛛就不索引这个页面,以及这个页面的链出页面,偶的就中了这个奖了!很多人放出了他们自己修改的robots.txt文件,但都忽略了百度蜘蛛的爬行规律:并不是进入一个版块后,就按照人类思维,按文章列表顺序爬行的,我从自己的站点,已经证实这个问题:

  比如文章列表第一篇爬完后,并不是接着爬第二篇,而是从第一个篇内容页中的“热点文章”等继续爬(这就要求站内的贯通性较好!)。从DZ官站的收录页URL就可以看出这个点,如果随意屏蔽/forum.php?mod=redirect* 或者/forum-redirect*这样的路径,可能会导致大部分网页不被收录。

  不要用人的思维习惯来判断蜘蛛程序的规律。很多站长放了robots.txt后,就发现百度很少收录自己的内页,很可能就是这个原因。所以用robots.txt文件来解决重复收录问题,是很危险的,从程序上做根本解决才是上策!小CO是上当了。希望有?的朋友慎用robots.txt!

  (站长网首发,作者http://www.tok8.cn转载请注明出处)

时间: 2024-07-28 21:42:00

随意修改robots.txt 小心搜索引擎不收录你的站的相关文章

robots.txt禁止搜索引擎收录的方法

搜索引擎 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站( 比如http://www.abc.

如何让搜索引擎快速收录你的站

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 搜索引擎的流量是巨大的.那么一个新站如何快速让搜索引擎收录呢?一般新站的站长都会选择去搜索引擎提交自己的网站.但其实效果并不是很好,若想被搜索引擎快速收录最好的办法就是,与PR值高的网站最链接,并且坚持每天都更新,以使搜索引擎每天都收录最新的内容去做链接. 一般PR值高的站,是不会愿意去给你做链接的,因为不能给他们带去有价值的东西.我们去搜索

了解robots.txt的用法 优化搜索引擎抓取和索引

通过给网站设置适当的robots.txt对Google和百度seo优化的作用是很明显的.WordPress博客网站也一样. 我们先看看robots.txt是什么,有什么作用? robots.txt是什么? 我们都知道txt后缀的文件是纯文本文档,robots是机器人的意思,所以顾名思义,robots.txt文件也就是给搜索引擎蜘蛛这个机器人看 的纯文本文件.robots.txt是搜索引擎公认遵循的一个规范文 档,它告诉Google.百度等搜索引擎哪些网页允许抓取.索引并在搜索结果中显示,哪些网页

详细介绍搜索引擎robots.txt文件

前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录.当时感觉很不对劲,检查来检查去也没有检查出什么问题,后来登录Googlehttp://www.aliyun.com/zixun/aggregation/8984.html">网站管理员中心诊断网站才看到robots文件组织任何搜索引擎蜘蛛访问才发现问题,改过之后,收录正常. 前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录.当时感觉很不对劲,检查来检

实战分析:修改robots文件百度谷歌对网站的反应

做网站也做了这么长时间,站长们能遇到的事情都遇到过了,最常见无非就是网站被降权,网站快照不更新网站主要关键字排名下降,,外链数量减少等等,这些问题往往就是由于网站初期准备工作没准备好就上线的结果,导致后期更换网站板块或者频繁修改其它蜘蛛经常爬行的文件所引起的,今天小编和大家探讨一下修改robots文件后对网站的影响及一些搜索引擎的反应. 第一次修改robots文件后百度百度谷歌反应 快照更新了,发现了是4天一周期,每天流量很大,但是用户都在我屏蔽的/user/文件里,蜘蛛无法抓取,最大的流量就是

谈谈关于Robots.txt的几个要点

从事seo优化的工作人员必须要了解Robots.txt ,这是一个合格的seoer必须了解的知识.那么,到底robots有什么需要了解的呢? 首先,作为一名合格的seo工作人员,必须要了解,Robots.txt是一个协议,而不是一个命令.robots.txt是搜索引擎访问网站的时候要查看的第一个文件.robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的,以及什么文件是不允许被蜘蛛程序抓取的. 通常情况下,当蜘蛛来到你的网站以后,首先就是要看根目录下是否存在robots.txt这个

浅谈网站地图链接放在robots.txt文件里的用处

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 把网站地图链接放在robots.txt文件里,好处就是站长不用到每个搜索引擎的站长工具或者相似的站长部分去提交自己的sitemap文件.这样的方法可以帮助站长减轻工作. 各大搜索引擎都发布了对网站地图的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的链接.目前对此表示支持的搜索引擎公司有Google, Yahoo,而

Robots.txt的写法和利用百度站长平台工具自动生成

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度站长平台提供了一个很好的robots.txt自动生成工具,利用它我们可以很方便的写出robots.txt,通过robots.txt阻止搜索引擎收录你不想要被收录的页面及目录,还可以阻止及引导蜘蛛爬行更多的页面,减少蜘蛛的爬行量,提高蜘蛛的爬行效率,有效的提升更多的页面被收录. 前面我们介绍了通过IIS日志分析让你更好的了解网站运行情况,可

robots.txt使用教程

Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的.当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是 否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有 被口令保护的页面.最后,robots.txt必须放置在一个站点的根目录下. 大家可以参考一下谷歌.百度和腾讯的robots写法: http://www.google.com/robots.txt http://www.bai