再浅谈百度抓取时出现的200 0 64现象

  只有经历过网站关键词搜索排名跌宕起伏的站长才能真正明白,等待不是一种方式,结果需要努力和勤劳来弥补。笔者经历了网站改版到降权,关键词一无所有到关键词排名起色的过程,这个过程让人难熬和艰辛,如果有一天每一位站长都经历过这样的历程,我想百度会比现在弱小很多。

  笔者的站在近3个月前进行一次改版,改版的目的就是为了URL标准和简单,同时也做了网站网页布局的修改,从改版后开始网站关键词一无所有,等待我的只有坚持内容更新和外链发布,直至上周网站频道关键词和长尾关键词开始进入百名,从网站改版到目前有所成就的过程中经历了很多,其中之一就是被大家蒙上恐怖主义色彩的http状态码200064,在笔者多次的实验和反复的监测中发现几下几点引发因素:

  笔者站点GZIP压缩使用情况对比:

  site位置:第一(使用):site位置:第一(停止使用)

  site快照:隔天(使用):site位置:隔天(停止使用)

  domain位置:16位(使用):domain位置:10位(停止使用)

  domain快照:差1天(使用):domain快照:隔天(停止使用)

  网站GZIP压缩使用过程:

  目前各大站长都知道GZIP压缩带来的高速率的访问和良好的用户体验,但笔者认为不同的网站应视网站的情况而使用,GZIP简单的来说就是压缩减少传输给访问者数据量的一种技术,但只针对于静态页面。

  11月12日,由于网站只有网站首页是静态页面,但首页中因为广告图片直接增加了网页的大小,为了提高首页的访问速度,因此要求程序员进行GZIP压缩处理,但就在压缩后第二天笔者发现网站IIS日志中出现大量的200064状态码,其中发现大部分是百度抓取时出现的状态码,当时并没有引起注意,并处理以标记日志正常,继续检测。

  11月26日,笔者一直检测的网站日志仍然出现200 0 64,并由于之前网站已在被降权的过程中,因此domain网站首页保持不变,但持续了近2个月的高质量更新和外链建设到此为什么没有效果呢?笔者在互联网上找了200 0 64所有的解释说明,并最终决定停止GZIP压缩,恢复正常。

  11月26日,停止GZIP压缩,次日百度抓取状态码回复正常,持续时间为半个月。就在11月28日早晨发现,网站domain时上升第十位。

  在此期间笔者的网站site和domain时快照时间均为隔天,因此从以上二点我们可以判断,200064并非网上流传的所谓抓取删除的概念,而是一种抓取不完整的意思,因为压缩传输,因此造成百度抓取无法正常完整的获取网页中所有的内容信息,提醒是完整的获取。因此如果有站长发现网站日志中百度抓取出现这样的问题,而且刚好网站也使用了GZIP压缩,那么停下一段时间,再对比网站日志情况,我想抓取不完整不是百度自身的索引行为问题,但长期的抓取不完整一定会受到一定程度的处罚,笔者建议新站或是在1年以内的站点要多注意200064的情况。

  总结:网站出现200064现象一定有原因引起,通过笔者亲身体验证明该抓取状态并非是网上流传的那么恐怖色彩,站长记录好每一次操作就可以发现这些问题的所在,不是服务器问题就是技术原因。网站就像自己的孩子,总是需要努力的付出和合理的养育,这样网站这个孩子才能茁壮成长!

  本文出自http://www.kidsnet.cn,A5首发,转载请注明来源,并保留来源的完整性,谢谢!

时间: 2024-10-24 14:34:15

再浅谈百度抓取时出现的200 0 64现象的相关文章

百度蜘蛛抓取的HTTP状态“200 0 64”分析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 今天QQ上有位网友"银狐云枫"给我发来消息说,他的网站之前被人入侵挂了马,被百度K掉了,原来百度爬虫正常抓取页面的时候,返回的http状态是200 0 0,现在爬到他的网页总是200 0 64,他问这个64是什么意思,是不是百度清除页面,有什么解决方法. 我之前也写过一篇关于百度,google,yahoo搜索引擎的蜘蛛爬虫

从网站日志200 0 64状态码数据分析谈做科学的SEO

记得去年笔者刚入门SEO时,在SeoWhy悬赏了一个关于网站IIS日志的问题,大概描述是:百度蜘蛛抓取网站,日志为什么会出现200 0 64代码?64表示什么? 得到了蛮多人热心回复,大致有以下七种说法: 1.64表示64位系统; 2.64表示抓取次数; 3.64表示正常,不需要理会; 4.64表示网页没有更新; 5.64表示k站的前兆; 6.64表示网站处于考核期; 7.64表示蜘蛛对网站Gzip压缩解密失败; 由于当初福清seo经验不够,也没有对网站日志进行详细分析,故此事不了了之.但通过自

浅谈百度外链对网站关键词排名的影响

浅谈百度外链对网站关键词排名的影响 建站的朋友都知道,网站优化无外乎内容,外部链接,关键词.而今天在这里要跟大家谈的是,外部链接跟关键词排名的关系.首先,我们需要知道,什么叫外部链接?外部链接,也叫反向链接,就是从外部网站指向自己网站的链接;查询外部链接数量可以用工具查询,也可以使用查询指令在搜索引擎查询.我们查询各大搜索引擎的反链,其目的也就是要对查询的结果进行分析,根据查询的结果分析出反链的存在形式: 1.超链接形式 这种反链可以是关键词链接,比如:广州尔码,也可以是网址链接;而关键词链接又

百度抓取纯文本链接 Lee说SEO外链建设规则

由于用户不能通过直接点击方式进入纯文本url地址所指向的页面,无法直接实现反向链接定义中"指向目标文档(网页)"的反向链接作用,所以一直以来SEOER们对纯文本url地址的SEO作用普遍不看好. 但无可否认的是,这样大量的纯文本url地址有效增加了特定网页的曝光率,也肯定有用户通过复制粘贴方式进入特定网页--只要我们的内容对他有帮助.从这个意义上来说,纯文本url地址也的确间接实现了"指向目标文档(网页)"的反向链接作用. 百度与其他搜索引擎能够准确识别纯文本url

.Net生成站点sitemap供百度抓取的类和使用

我对sitemap介绍: 百度的sitemap说明地址:http://zhanzhang.baidu.com/wiki/93#01 SiteMap作用:利于百度搜索 举例说明: http://award.kinpan.com/AwardsIntroduce/AwardNews/20130609172732828125097a79b4e4a http://award.kinpan.com/AwardsIntroduce/AwardNews/20130624102726828125093ba40f2

关于百度抓取中文URL的快照问题

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 最近在操作一个地方门户网站,发现百度在抓取过程中,出现很多404页面,而这些页面的网址都是正确的,而百度快照显示的抓取页面却是404页面,如下图: 从百度快照点击进去的链接(这张页面是TAG页面)却是错误的,从搜索结果点击进去的页面是正确的,链接地址是http://www.jiangxizc.com/tag/%E6%A3%89%E6%B9%9

关于数据抓取时网页编码各不相同的问题

问题描述 关于数据抓取时网页编码各不相同的问题 最近在学习数据抓取的一些技能,抓取指定数据,网页编码都是不一样的, 有没有方法写个公用的类或者对象来处理,求代码 解决方案 python 判断网页编码的方法: import urllib f = urllib.urlopen('http://outofmemory.cn/').info() print f.getparam('charset') 2 import chardet 你需要安装一下chardet第3方模块判断编码 data = urll

浅谈Python爬取网页的编码处理_python

背景 中秋的时候一个朋友给我发了一封邮件说他在爬链家的时候发现网页返回的代码都是乱码让我帮他参谋参谋(中秋加班真是敬业= =)其实这个问题我很早就遇到过之前在爬小说的时候稍微看了一下不过没当回事其实这个问题就是对编码的理解不到位导致的. 问题 很普通的一个爬虫代码代码是这样的 # ecoding=utf-8 import re import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://j

玩玩小爬虫——抓取时的几个小细节

      这一篇我们聊聊在页面抓取时应该注意到的几个问题. 一:网页更新      我们知道,一般网页中的信息是不断翻新的,这也要求我们定期的去抓这些新信息,但是这个"定期"该怎么理解,也就是多长时间需要 抓一次该页面,其实这个定期也就是页面缓存时间,在页面的缓存时间内我们再次抓取该网页是没有必要的,反而给人家服务器造成压力. 就比如说我要抓取博客园首页,首先清空页面缓存, 从Last-Modified到Expires,我们可以看到,博客园的缓存时间是2分钟,而且我还能看到当前的服务