分析网站日志中百度蜘蛛返回304状态码的情况

  最近遇到一个网站被百度蜘蛛抓取首页后大量返回304状态码的问题,以前遇到过301和302,就是没了解过304,刚好可以对这个情况进行一下分析和观察,以便比较深入的了解该问题的出现以及应对之策。

  

  百度百科对304状态码是这么解释的:如果客户端发送了一个带条件的 GET 请求且该请求已被允许,而文档的内容(自上次访问以来或者根据请求的条件)并没有改变,则服务器应当返回这个304状态码。简单的表达就是:客户端已经执 行了GET,但文件未变化,也就是我们所理解的页面没更新。

  GET /index.html - 80 - 220.181.135.120 Sosospider+(+http://help.soso.com/webspider.htm) 304 0 0

  GET /index.html - 80 - 123.129.209.113 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 304 0 0

  但网站每天都有较多内容的更新,怎么会返回未更新的状态码呢,查看了网站进几天的网站IIS日志,发现这几天对首页的抓取都是返回的304状态码,一般情况下大概会是一下几种可能:

  1、服务器缓存缘故

  设置缓存的作用一般都是为了加速网站的提前加载,就像我们在浏览器上访问网站的时候也比较容易出现缓存问题,当你打开一个网站之后,如果该网站有更 新或者有 变化,直接点击首页会发现还是之前访问的页面,而ctrl+F5重新加载后才会显示新的页面,这其实就是缓存的缘故。另外,有的时候和一些较大的网站换友 情链接也会遇到,对方加了友链之后首页不会马上显示,会因为缓存而需要过一段时间才能显示。

  2、网站结构问题

  如果网站结构不能有效的让蜘蛛顺利爬行,也就是说虽然蜘蛛有抓取,但由于网站结构问题导致蜘蛛前后两次抓取内容相同,或者说蜘蛛每次抓取首页都只抓了那块固定的内容,那么就势必导致蜘蛛对首页的抓取返回304状态码。

  3、网站速度问题

  谷歌就针对网站的加载时间更 新过算法,把网站加载时间纳入了排名因素,就算搜索引擎排名不重视这点,对于用户体验也是有很大影响,谁也不会愿意多花时间在一个需要加载几十秒甚至几分 钟的网站上面。而对于搜索蜘蛛也是如此,网站的加载速度也会影响蜘蛛的正常抓取,一般情况下网站都是从上往下的加载,而有的时候由于速度因素导致网站只加 载了头部,后面部分而没有及时显示出来,也可能导致蜘蛛只抓取了头部部分内容,而由于一般网站的头部都是相同的,也就容易出现了抓取返回没更新的状态码。

  另外,网络线路的互通也是一个因素。

  4、网站内容问题

  网上查找了下关于304状态码的一些内容,不少人都认为是网站内容长期采集或是伪原创也能导致蜘蛛返回该状态码,因为网站内容采集或伪原创的确会降 低网站质量,导致百度不收录等情况,搜索蜘蛛也会认为网站内容不具备收录的意义,那么也就不会抓取新的内容而返回没有更新的状态。

  5、重视该状态码

  既然304状态码是表示未更新的情况,那么经常出现就需要引起重视,同时也需要观察出现该状态码的同时网站各方面数据的变化和趋势,以便对该状态码的影响有较好的了解。

  暂时网站出现304状态码之后经过百度更新收录有所减少,前几天有过断断续续的网站无法访问的情况,第二天网站首页就被K掉,在更换服务器之后恢复网站正常访问,次日首页再次恢复,目前仍需要观察和分析,才能更好掌握该状态码。

  文章为肖俊博客原创,原文地址:http://xiaojunseo.com/seo-watch/235.html (转载请以链接形式注明出处,谢谢)

时间: 2024-12-03 05:16:06

分析网站日志中百度蜘蛛返回304状态码的情况的相关文章

再谈IIS日志中百度蜘蛛返回200 0 64的问题

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 最近我的站快照老是不更新,查看网站日志的蜘蛛访问,发现内页蜘蛛抓取都正常,唯独首页会出现蜘蛛返回200 0 64,要么就是301 0 64(因为www和没有www的做了跳转)于是我搜索相关资料并分析了该状态码,网上都众说纷纭,先总结一下大致的问题吧. 先说一下200 0 64状态码的意思. 200表示正在访问该页面了,但出现64说明抓取的大小

通过网站日志了解百度蜘蛛的认可度

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 相信大家对百度蜘蛛都很了解,站长们都是欢迎蜘蛛的光临,但是否真正了解百度蜘蛛的来意,相信这点大家才是非常关心的话题了,现编者根据以往观察网站运行的日专给大家分享一下,不对之处还请指正. 一.整点式爬行,这种爬行争对新站或即将要被降权的网站,指的是每天24小时,每小时百度蜘蛛都会对你网站首页进行爬行,并且爬行数量基本一致.这是新站当中最常见的,

查看网站日志中搜索引擎蜘蛛的来访记录的方法

摘要: 对于很多做网站的新手来说,都没有经过系统地授课进行网络技术和建站知识学习,做网站都是靠自学,遇到难题在论坛发帖提问,更不会懂得网站优化,对于较基本操作通过网站日志 对于很多做网站的新手来说,都没有经过系统地授课进行网络技术和建站知识学习,做网站都是靠自学,遇到难题在论坛发帖提问,更不会懂得网站优化,对于较基本操作--通过网站日志看蜘蛛来访情况都不知到哪里看,怎么看.前两天看到很多人发帖提问,回复者的答案却比较精炼,不具体,提问者还是云里雾里的,现我就以自己的网站来系统地操作一次,提交给大

通过IP地址看网站日志寻找百度蜘蛛爬行规律

对于各位站长来说,百度的收录是关心的重中之重.了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的.很多网站目前使用的都是虚拟空间,都能够提供日志. 日志是指在网站根目录下的logfiles文件夹里面日期.txt文本文件有很多介绍通过http查看返回命令的那种办法来查看蜘蛛,这里就不介绍了. 现在更多的网站是没有提供可以通过软件来查看的日志格式. 更多的是类似下面的日志格式,如下: 03:28:34 GET /goods.php 202.108.7.205 200 34696 390 第

手把手教你玩转excel分析网站日志

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 在seo逐步普及的大浪潮下,许多所谓的seoer都将她简单归结为内容和外链,其实这个说法并没有错,内容和外链的确是做seo最为重要的两大手段,但这就好像某领导在某大会上发言:"我们要继往开来,我们要卓越进取!",继往开来是对的,卓越进取是对的,但靠什么继往开来.卓越进取就不得而知了.所以在这里我想说的就是科学的理性的看待s

从网站日志中总结出ecshop容易被忽视的三大优化地方

因笔者用ecshop搭建了一个女装商城类型站点,每天的都会分析网站日志.通过蜘蛛的爬行踪迹总结出了ecshop需要但容易被忽视的三个优化细节,绝对让你分享到干货内容,废话不多说,看如下三点: 一:商品分类地址重复 在笔者在一次分析网站日志中看到,百度蜘蛛爬行了一个带有多个参数的动态网址,于是就复制粘贴直接在浏览器中打开这个网址,出现的内容竟然是自己的一个商品分类地址.后来查找资料,才知道那些参数是按时间.人气或者价格的升降序重新产生的一个地址.这点对于seo网站优化很不友好,等于是重复内容,从图

百度快照不更新与HTTP 304状态码

前不久百度官方发表了一篇关于百度快照的说明,大体的解释了百度快照更新与倒退原因,并直接指出"网站快照与网站权重没有任何关系". 由于SEO基础知识的普及度不够,在交换友情链接的时候,还是有很多人拿网站快照作为主要参考标准之一,即使网站排名靠前.PR高,在把百度官方声明发给对方看,对方也很无奈的来了句上边领导要求没办法. 网站百度快照不更新与隔天更新 观察一些企业网站,发现关键词排名差不多的网站,同样是网站内容不更新,但是有的百度快照一直是隔天,有的就固定停在了某一天.   就此问题,笔

网站日志中的ip如何辨别搜索引擎类型及蜘蛛真假

如今好多草根站长都还不知道,如何查看网站日志,网站日志里面怎样辨别搜索引擎类型.ip段的各个含义及真假蜘蛛的判断,今天巧说seo论坛就为大家介绍下怎样分析网站日志里面的ip.首先要先把网站日志下载下来,下载方法: 1. ftp空间log文件夹 2. 登入你站点的服务器,通常网站日志位置C:WINDOWSsystem32LogFiles   上图便是我从服务器上面下载下来的8月2日的网站日志,通过上图我们可以看出里面都是一些英文字母的代码,对于很多seo优化站长来说看上去都很头痛,但对于一些优化皇

捕捉蜘蛛 教你简单分析网站日志

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 想要成为一名合格的SEOER,那么研究搜索引擎蜘蛛的行为就成为了你每日的必修课,所以这次我就来给大家简单的介绍一下如何去分析网站日志.既然是要分析网站日志,首先要满足的先决条件自然就是要有网站日志了,在这里我就不介绍如何去生成和获取网站日志. 因为一般情况下如果你用的是空间那么基本上绝大多数空间都有网站日志,通过都存放在空间的log文件夹下面