网站优化跟踪 细看robots.txt规则的实际效果

  10月20日,我对博客进行了大规模调整,就如同对待亟待成长的树一般修枝剪叶,以期能有较好的成长趋势。其中robots.txt被我充分的利用起来。如今一个工作周即将过去,robots.txt文件规则是否正确,是否已经生效?百度谷歌等搜素引擎是否响应了robots.txt规则进行索引调整?作为站长我需要深入研究一番,以便动态掌握博客收录状态。

  经调查发现,谷歌对robots.txt反应比较迅速,第三天在网站管理工具里找到了迹象。百度表现不尽如人意,说百度不认robots.txt规则那是瞎扯,但反应周期如此之长,难免会留下反应慢不作为的猜疑。

  看谷歌对robots.txt规则之反应

  在20日做的调整中,有两条规则我后来做了删除。打开我博客的robots.txt,和20日进行调整写下的对比,可知其中变化。作此调整的原因在于,如按照20日的写法,第二天我发现,网站管理员工具Sitemaps里三个被选中的地址前出现了叉号——被robots.txt文件规则给阻止了——这个没必要嘛。当时的截图找不到了,下面三个选中的可以看一下:


  提交的sitemap网站地图

  响应robots.txt规则,谷歌停止了2000 多个连接地址的抓取。那500多个找不到地址,是因为前段时间删除文章标签tags后遗症。下面是截图:


 

  2000多个连接地址被robots.txt规则限制

  翻遍每一页,没有发现问题——除了一些/?p=的短连接让人心疼外,一切完美无暇。严格来说,应该是robots.txt规则不存在问题,谷歌不折不扣的执行了robots.txt规则。谷歌查询“site:***.com inurl:?p” 仅找到残缺的14条(无标题或摘要)。不久的将来这些地址将被清除。

  看百度对robots.txt规则之反应


  20日就有robots.txt文件规则了,这是什么情况?

  规则20日制定,上面这图不知是穿越了,还是我眼花了?我查过IIS日志记录,百度20日后曾多次下载robot.txt文件,服务器返回的是200成功状态码。难怪百度不招各位站长待见。

  百度“亲爱的站长,我是你爹”高高在上的态度,是否应该转变一下了?

 

时间: 2024-09-27 14:08:02

网站优化跟踪 细看robots.txt规则的实际效果的相关文章

细看robots.txt规则的实际效果

摘要: 10月20日,我对博客进行了大规模调整,就如同对待亟待成长的树一般修枝剪叶,以期能有较好的成长趋势.其中robots.txt被我充分的利用起来.如今一个工作周即将过去,robots.txt文件规 10月20日,我对博客进行了大规模调整,就如同对待亟待成长的树一般修枝剪叶,以期能有较好的成长趋势.其中robots.txt被我充分的利用起来.如今一个工作周即将过去,robots.txt文件规则是否正确,是否已经生效?百度谷歌等搜素引擎是否响应了robots.txt规则进行索引调整?作为站长我

浅谈网站地图链接放在robots.txt文件里的用处

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 把网站地图链接放在robots.txt文件里,好处就是站长不用到每个搜索引擎的站长工具或者相似的站长部分去提交自己的sitemap文件.这样的方法可以帮助站长减轻工作. 各大搜索引擎都发布了对网站地图的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的链接.目前对此表示支持的搜索引擎公司有Google, Yahoo,而

分析Robots.txt规则误区 百度和Googlerobots工具使用

前段时间写了篇robots.txt文件怎么写,但是通过实际观察,有些朋友对于robots.txt文件的规则还是有一定的误区. 比如有很多人这样写: User-agent: * Allow: / Disallow: /mulu/ 不知道大家有没有看出来,这个规则其实是不起作用的,第一句Allow: / 指的是允许蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容. 表面上看这个规则想达到的目的是:允许蜘蛛爬行除了/mulu/之外的网站所有页面. 但是搜索引

医疗网站优化之长尾词排名规则

2012年3月5日.星期一笔者在分析医疗行业网站的优化手法,发现了一个共同的特性,医疗网站多部分都是长尾词的排名,而主关键词排名也有,但是只要是大量长尾词排名的网站流量就非常好,少量长尾词排名的和主关键词排名一般的网站流量一般般.下边就来拿一个北京皮肤专科医院的网站作为案例为大家分析. 在这个图片能够清晰的看出来网站的日IP能达到1000-2000之间,然而网站收录的页面只有1800篇 相信做医疗行业的朋友们都知道,医疗行业网站收录1000-2000的页面可谓说是在平常不过了,接下来看下边的一个

利用Robots.txt如何优化WordPress网站

很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识. Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取. 搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以

网站优化之sitemap、404、Robots.txt

sitemap又称网站地图. 在专业术语上,sitemap就是一个页面,上面放置了网站上所有页面的链接,一个网站所有链接的容器,根据网站的结构.框架.内容,生成的导航网页文件.大多数人在网站上找不到自己所需要的信息时,可能会将网站地图作为一种补救措施,蜘蛛非常喜欢网站地图. 为什么要讲网站地图呢,把蜘蛛比作是一个人,当你到一个陌生的城市时,第一个想到的应该是去买一张这个城市的地图,不然很容易迷路的.同样的道理蜘蛛爬行你的网站时要是有一张地图引导他,他就不会迷路,而且要是你的地图结构合理且连续性强

了解robots.txt的用法 优化搜索引擎抓取和索引

通过给网站设置适当的robots.txt对Google和百度seo优化的作用是很明显的.WordPress博客网站也一样. 我们先看看robots.txt是什么,有什么作用? robots.txt是什么? 我们都知道txt后缀的文件是纯文本文档,robots是机器人的意思,所以顾名思义,robots.txt文件也就是给搜索引擎蜘蛛这个机器人看 的纯文本文件.robots.txt是搜索引擎公认遵循的一个规范文 档,它告诉Google.百度等搜索引擎哪些网页允许抓取.索引并在搜索结果中显示,哪些网页

浅谈Robots.txt 文件给网站带来的好处

作为一名网站优化人员,我们都很清楚Robots.txt文件对我们网站的重要性,Robots.txt文件只是一个纯文本文件,它就像网站地图一样,给搜索引擎指明道路,当蜘蛛搜索一个站点时,它首先爬行来检查该网站的根目录下是否存在Robots.txt文件,如果存在的话,搜索引擎会按照该文件的内容来确定访问范围,如果该文件不存在的话,那么搜索引擎就会沿着链接来抓取.那么程序员在设置Robots.txt文件时候应该了解到这个文件给我们网站带来了哪些好处? 第一, Robots.txt文件大大节省服务器宽带

站内优化三剑客:sitemap、404、Robots.txt

一个网站想要有一个好的排名就必须做好站内.站外的优化,相信大家一定看过很多关于站内或者站外优化的方法.秘笈.诀窍什么 的,有资深的SEO人员写的,有站长们自己的经验分享或者说是实战经验,今天跟大家说说自己对站内优化的一些看法跟理解吧. 我是刚刚接触站内优化的,因为之前一直是做站外优化的,所以对站内优化还不是很了解,今天主要跟打击分享的是站内优化过程中很多人会忽视的三个方面,即:sitemap.404页面.robots.txt.很多站长在做站内优化的时候很容易忽视这三个方面,觉得sitemap.4