快照抓取异常,只有网址无标题描述解决过程

  说到百度快照,站长们们都知道他的重要性,是百度权重的重要因素之一,也是交换友情链接,衡量网站的重要标准。及时快照更新直接表示站点被蜘蛛抓取的频率,受蜘蛛的喜欢程度。闲话不说,今天就给大家分享我的站点首页快照抓取异常,只有网址无标题描述的,快照停止的解决过程。

  话说我的站点中国纺织人才网向来快照更新都是比较及时的,偶尔会落后几天,但是恢复的也很快,但是前段时间,输入主关键词时候,出来的快照是9月12号的,还没有描述,只有一个网址以及名称,奇怪,这什么情况?连一直以来都有的ICO标签也么有了,这美观度是其次,这种情况直接影响客户对网站信任度啊,我开始关注这个问题。

  首先网站有问题,得先用工具查一下,我通过chinaz站长工具查询网站的死链接,友情链接,这两块是我们每周都有做维护的,用工具都检查一遍,同时也用站长工具中查看索引量以及抓取异常情况,并么有发现什么很大的波动。这些指标都没有明显变化,那难道是站点内部出现什么问题?说道这个不得不推荐谷歌管理员工具,相信很多站长们都有用这工具,他们的抓取错误提示上比较快,有什么问题基本上都是能及时通知的。

  谷歌管理员工具分析后,发现我们的站点内部有很多的404 页面,很多都是以前修改路径时候遗留下来的问题,同时也是因为近期服务器问题比较多, 访问上都有不稳定的情况。谷歌管理员工具有一个好处,告诉你404 页面后,还有链接到该页面的域名,可以然后快速找到并处理问题,404 对整站的影响自然不需要我多说,就是和毒瘤,少的时候没什么,爆发起来就是突然就降权了。

  到此,我想基本上应该解决一部分了,过了2天,当我在百度上输入时候,我以为他能好了,可是以为只是以为,现实总是更加骨感,这次情况更糟糕,直接网址查的快照竟然也是9月12号的,这下我慌了,难道还有什么问题?

  接下去就是下载IIS访问日志,关于IIS日志这块,我也是一直以来都看的比较少,但是网站有问题,不会看也得看啊,毕竟日志是蜘蛛情况最直接的反馈。下载好日志,我首先用光年日志工具分析了,学着看每个目录的访问情况,说到日志这块每个站长都有自己习惯的工具,不外乎是分析每个目录下面的返回码,我们主做的百度,自然主要分析百度蜘蛛的访问情况。

  首先是304页面,分析站点的时候发现很多304的返回码,304 百度了下,是属于页面请求不更新的情况,304多,蜘蛛长期吃不到新的东西,就会导致网站快照更新不及时的情况。另外一个代码,是经理发现的,他采用的是不用工具直接查看源码的发放,这回就发现index目录也就是纺织人才网首页大量的200 0 64 ,关于200 0 64网上的说法不一,我也是问了群上的很多人,有人说是正常的,也又说的异常的,比较多的说法是抓取不完全,也就是说蜘蛛来到页面,抓到了信息但是在带走过程中遇到了问题,也就是没有返回信息。在结合自己站点情况,这就是问题了,页面不更新,蜘蛛抓取异常。

  问题出来了,接下去就是解决问题,分析了我们纺织人才网的首页,每日更新的板块真的很少,毕竟客户就那些客户,有增加也不会每日添加到首页的。但是首页问题还是得解决,怎么办,就增加新的板块,增加一个能实时更新的内容,于是策划效果也制作内容上线,然后去百度快照投诉,在过了几天,看快照渐渐恢复,目前为止基本正常。

  总结这次经验,怎么说呢百度快照不正常,有多种原因,有时候可能只是百度自己有问题,但如果快照3天以上异常,就得开始考虑是不是站点内部问题了。同时在检查问题的时候,一定得多方面考虑,把可能的问题都一一排查。而且出问题,一定得看日志,因为日志比你所有的工具都能反映真实情况,多方面综合,总有一样是能真正解决问题的

  本文作者:中国纺织人才网www.texhr.cn A5首发,转载请保留版权信息。

时间: 2024-09-17 04:27:11

快照抓取异常,只有网址无标题描述解决过程的相关文章

php5-怎么用php抓取一个页面的文章标题和标题对应的内容导入数据库,T_T

问题描述 怎么用php抓取一个页面的文章标题和标题对应的内容导入数据库,T_T 解决方案 http://www.jb51.net/article/48923.htm 把数据先抓回来,然后筛选你想要的,存入数据库就可以了. 解决方案二: 用xml工具解析,或正则

分析百度快照抓取不全案例

摘要: 百度对门户站的首页快照抓取不全的问题由来已久,有图为证: 图一:QQ快照 图二:新浪快照 图三:搜狐快照 图四:首页快照 通过以上三大门户和笔者自己的直播站点的快照发现,百 百度对门户站的首页快照抓取不全的问题由来已久,有图为证: 图一:QQ快照 图二:新浪快照 图三:搜狐快照 图四:首页快照 通过以上三大门户和笔者自己的直播站点的快照发现,百度都只抓取了大约120-130K左右的数据,更悲催的是新浪直接显示空白的快照. 提出问题: 其实以上的问题,很多站长都已经非常清楚,但是很多站长最

关于百度快照抓取不全案例分析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度对门户站的首页快照抓取不全的问题由来已久,有图为证: 图一:QQ快照 图二:新浪快照 < 图三:搜狐快照 图四:首页快照 通过以上三大门户和笔者自己的直播站点的快照发现,百度都只抓取了大约120-130K左右的数据,更悲催的是新浪直接显示空白的快照. 提出问题: 其实以上的问题,很多站长都已经非常清楚,但是很多站长最纠结的问题是,不

php file_get_contents抓取Gzip网页乱码的三种解决方法_php实例

把抓取到的内容转下编码即可($content=iconv("GBK", "UTF-8//IGNORE", $content);),我们这里讨论的是如何抓取开了Gzip的页面.怎么判断呢?获取的头部当中有Content-Encoding: gzip说明内容是GZIP压缩的.用FireBug看一下就知道页面开了gzip没有.下面是用firebug查看我的博客的头信息,Gzip是开了的. 复制代码 代码如下: 请求头信息原始头信息Accept text/html,appl

Python实现抓取百度搜索结果页的网站标题信息_python

比如,你想采集标题中包含"58同城"的SERP结果,并过滤包含有"北京"或"厦门"等结果数据. 该Python脚本主要是实现以上功能. 其中,使用BeautifulSoup来解析HTML,可以参考我的另外一篇文章:Windows8下安装BeautifulSoup 代码如下: 复制代码 代码如下: __author__ = '曾是土木人' # -*- coding: utf-8 -*- #采集SERP搜索结果标题 import urllib2 fr

nutch1.3在哪里设置要抓取的网址啊和1.2不同啊那些文件

问题描述 谁用过nutch1.3啊在哪里设置要抓取的网址啊1.2是在目录下新建一个url.txt然后更改crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分在接着配置nutch-site.xml请问1.3的要修改些什么,怎么改.我的目的就想简单的抓取几个网址然后搜索下关键词就好了 解决方案 解决方案二:1.3url过滤规则在regex-urlfilter.txt文件里源文件里#acceptanythingelse+.改为#acceptanythingelse-.在#a

蜘蛛抓取的行为

摘要: 通过对网站日志的分析,我们可以很好的判断我们的网站的健康程度,并且还可以看到蜘蛛抓取的记录以及用户的一些行为记录,这样数据对于我们来讲无疑是 提升网站的一个关键,可 通过对网站日志的分析,我们可以很好的判断我们的网站的健康程度,并且还可以看到蜘蛛抓取的记录以及用户的一些行为记录,这样数据对于我们来讲无疑是 提升网站的一个关键,可以时刻的让我们看到网站的不足之处,从而进行改正.然而今天小编与大家分享的主要是蜘蛛抓取的行为,希望对各位站长有所帮助. (一)蜘蛛访问的次数.停留时间以及抓取的数

基于Node.js的强大爬虫 能直接发布抓取的文章哦_node.js

一.环境配置 1)搞一台服务器,什么linux都行,我用的是CentOS 6.5: 2)装个mysql数据库,5.5或5.6均可,图省事可以直接用lnmp或lamp来装,回头还能直接在浏览器看日志: 3)先安个node.js环境,我用的是0.12.7,更靠后的版本没试过: 4)执行npm -g install forever,安装forever好让爬虫在后台跑: 5)把所有代码整到本地(整=git clone): 6)在项目目录下执行npm install安装依赖库: 7)在项目目录下创建jso

如何让搜索引擎抓取AJAX内容

越来越多的网站,开始采用"单页面结构"(Single-page application). 整个网站只有一张网页,采用Ajax技术,根据用户的输入,加载不同的内容. 这种做法的好处是用户体验好.节省流量,缺点是AJAX内容无法被搜索引擎抓取.举例来说,你有一个网站. http://example.com 用户通过井号结构的URL,看到不同的内容. http://example.com#1 http://example.com#2 http://example.com#3 但是,搜索引擎