解决因服务器而导致的蜘蛛抓取失败

  服务器是网站生存的基础,不论是什么原因造成的服务器封禁,都直接影响蜘蛛的抓取,影响网站的用户体验,不利于seo工作的展开。重庆seo奕杉其将以自己的亲身经历,结合网络上一些朋友对这类问题的分析,总结出造成服务器封禁的三点主要原因:

  一、服务器不稳定

  现在的服务器多如牛毛,价格也各不相同,质量方面也是相差甚远,站长们往往在选择的时候都是“只认价不认质”, 有的空间商为了节省资源,故意屏蔽掉spider(蜘蛛)的IP,导致spider抓取失败,网站页面就无法被搜索引擎收录。

  解决方法:选择有实力的正规空间商,尽可能保证您的网站稳定。服务器和空间的稳定性需要一定的技术实力来保障,一些没有实力的空间商,可能无力提供良好的服务,服务的稳定性无法保证。我们可以很形像的打个比喻:如果将“人”比喻为网站内容,那么服务器就是我们的“家”,它为我们挡风避雨,为我们的生存提供了一个优良的环境,而服务器的好坏将影响我们所能承受的风险。我想,谁都不愿意住在没有安全保障的屋子里,拿自己的生命开玩笑,同理,网站也是如此!如果您现在的服务器不理想,有必要另选时,请暂时让旧服务器能够使用一段时间,并且做301跳转,尽量减少更换服务器带来的一系列损失。

  二、人为操作失误

  对搜索引擎蜘蛛认识不够,对一些冒充搜索引擎spider的IP无法正确判断,继而误封搜索引擎IP。这样会导致搜索引擎不能成功抓取网站,无法成功抓取新网页,以及将之前已经成功抓取并收录的页面判定为无效链接,然后搜索引擎将会对这些死链接进行清除,继而网站页面收录减少,最终导致网站在搜索引擎的排名下降。

  解决方法:正确认识各搜索引擎蜘蛛,而搜索引擎使用的 IP 地址会随时发生变化,为确保能够正确识别各搜索引擎IP,您可以使用DNS反查方式来确定抓取来源的IP是否属于正规搜索引擎,防止误封。

  例如查Baiduspider:在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspide的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

  $ host 123.125.66.120

  120.66.125.123.in-addr.arpa domain name pointer

  baiduspider-123-125-66-120.crawl.baidu.com.

  host 119.63.195.254

  254.195.63.119.in-addr.arpa domain name pointer

  BaiduMobaider-119-63-195-254.crawl.baidu.jp.

  三、保护性的偶然封禁。

  1、如果网站的访问量过大,超过自身负荷,服务器会根据自身负荷进行保护性的偶然封禁。这种封禁是短暂性的,只要访问量下降到服务器的承受范围之内,那么服务器就会正常工作。

  2、还有一种情况是spider造成的,搜索引擎为了达到对目标资源较好的检索效果,蜘蛛需要对您的网站保持一定量的抓取。搜索引擎会根据服务器承受能力,网站质量,网站更新等综合因素来进行调整, 建立一个合理的站点抓取压力。但是会有一些例外,在压力控制不好的情况下,服务器会根据自身负荷进行保护性的偶然封禁。

  解决方法:1、如果是访问量造成的压力,那么恭喜你,说明你的网站已经拥有可观的访问人数,我们就应该升级服务器,来满足不段增长的访问量。2、如果是spider造成的,我们可以采用如下方式来减轻spider对服务器产生的压力:A、利用robots文件,屏蔽掉不想被spider抓取的页面。B、采用nofollow标签,屏蔽不想被spider爬行的链接。C、页面中较长的CSS、JS代码移到外部文件。D、删减多余代码。应当注意的是,以上两种情况在返回的代码中尽量不要使用404,建议返回503(其含义是“Service Unavailable”)。这样spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。

  最后,希望站长尽量保持站点的稳定,对于暂时不想被搜索引擎抓取的页面,使用正确的返回码告知搜索引擎,如果确实不想被搜索引擎抓取或者索引,可以写robots信息告知。

  作者:奕杉其

  来源:重庆seo

  文章链接:本文来自http://www.137sv.com/seotechnique/27.html转载请注明来源,并保留来源的完整性,谢谢。

时间: 2024-11-18 14:44:24

解决因服务器而导致的蜘蛛抓取失败的相关文章

总结几点现在百度更新蜘蛛抓取的几点规律

摘要: 今天起床后我打开网站发现了一个现象,那就是百度蜘蛛在一个晚上来了几次,我的网站的更新频率是白天一篇文章,晚上11点到12点更新3篇文章,经过对网站的检查与分析,然后我与 今天起床后我打开网站发现了一个现象,那就是百度蜘蛛在一个晚上来了几次,我的网站的更新频率是白天一篇文章,晚上11点到12点更新3篇文章,经过对网站的检查与分析,然后我与朋友在QQ中聊了一下他手中的几个网站,我总结出了几点现在百度更新蜘蛛抓取的几点规律. 1.百度蜘蛛在7月13日的大更新之后越来越注重原创内容,前两次的大更

蜘蛛抓取网页过程的四步曲

随着搜索引擎的不断发展与升级,搜索引擎所派出的蜘蛛也变得越来越智能了,所以为了要弄清楚蜘蛛的工作原理,为了更好的优化自己的网站我们就必须不断的去研究蜘蛛.下面,我就和大家简单的聊聊蜘蛛的基本工作原理吧: 蜘蛛工作的第一步:爬行你网站的网页,寻找合适的资源. 蜘蛛它有一个特性,那就是他的运动轨迹通常都是围绕着蜘蛛丝而走的,而我们之所以将搜索引擎的机器人命名为蜘蛛其实就是因为这个特性.当蜘蛛来到你的网站之后,它就会顺着你网站中的链接(蜘蛛丝)不断的进行爬行,因此如何让蜘蛛能够更好的在你的网站中进行爬

ython-如何欺骗服务器,可以无限制的抓取网页!!!

问题描述 如何欺骗服务器,可以无限制的抓取网页!!! 大家好: 我现在想抓去一个网页,但是不想被服务器发现,应该怎么样做? 感觉CSDN的服务器做的就挺好的,我自己尝试的抓网页但是次数一旦多了,就不行了! 网络上的一些在python中添加浏览器头的信息,本人昨晚刚试过,也不是很给力! 有没有比较好的方法!比如:自动变IP之类的方法! 求各位大神指导! 解决方案 找一个能自动重启路由器的软件,填写路由器用户名和密码不就搞定了,只是重启的过程断网会导致采集程序无法采集部分数据 解决方案二: 只要你做

蜘蛛抓取的行为

摘要: 通过对网站日志的分析,我们可以很好的判断我们的网站的健康程度,并且还可以看到蜘蛛抓取的记录以及用户的一些行为记录,这样数据对于我们来讲无疑是 提升网站的一个关键,可 通过对网站日志的分析,我们可以很好的判断我们的网站的健康程度,并且还可以看到蜘蛛抓取的记录以及用户的一些行为记录,这样数据对于我们来讲无疑是 提升网站的一个关键,可以时刻的让我们看到网站的不足之处,从而进行改正.然而今天小编与大家分享的主要是蜘蛛抓取的行为,希望对各位站长有所帮助. (一)蜘蛛访问的次数.停留时间以及抓取的数

分享如何通过robot灵活控制蜘蛛抓取

做SEO没有人不知道蜘蛛吧,robot.txt文件就是和蜘蛛交流的文件,很多人都会说介绍要怎么让蜘蛛来爬行,却很少人知道用robot.txt去操控蜘蛛,robot.txt用得好的话蜘蛛可以为你所用.下面我来介绍一下如何操控蜘蛛. 一. 屏蔽相同页面 搜索引擎是个喜新厌旧的东西,不会去收录重复的也或者已有的页面,即使收录了后期也会被删掉,所以一开始我们可以打开robots文件,写入禁止蜘蛛来读取这个页面的代码,给蜘蛛来下个好印象,反之印象分会大大减分,影响将来蜘蛛来爬行网站. 二.维护网站安全 利

影响蜘蛛抓取内容的四个因素

  网站收录良好与否跟蜘蛛爬行频繁次数.抓取页面有关是众所周知的,但是对于蜘蛛抓取了哪些页面我们不知道,那么我们只能依靠蜘蛛爬行过的访问日志进行分析了.从日志中我们可以分析出很多的数据,那么今天笔者主要给大家讲解一下影响蜘蛛抓取的因素和爬行时间,不要小看这个日志,它可以帮助你知道网站对于蜘蛛来说,是不是意味着友好的状态,蜘蛛喜不喜欢自己的站,如果爬行量大的话,那么就可以简单的得出网站很合蜘蛛的胃口,如果蜘蛛几天都不来的话,那么就要检查一下,是不是网站没有蜘蛛喜欢的"食物"了,下面就说说

Python打印scrapy蜘蛛抓取树结构的方法_python

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法.分享给大家供大家参考.具体如下: 通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0): urls = allurls[referer] for url in urls

php记录搜索引擎蜘蛛抓取页面代码

php教程记录搜索引擎教程蜘蛛抓取页面代码 error_reporting(E_ALL & ~E_NOTICE); $tlc_thispage = addslashes($_SERVER['HTTP_REFERER'].$_SERVER['PHP_SELF']);/*($_SERVER ['HTTP_HOST'].$_SERVER['PHP_SELF']);($_SERVER['HTTP_USER_AGENT']);*/ //添加蜘蛛的抓取记录 $searchbot = get_naps教程_b

页面被蜘蛛抓取后将被如何建立索引?

搜索引擎的数据库,是一个庞大复杂的索引数据库.你想知道你的网站页面被蜘蛛抓取后,会被怎样索引,搜索引擎为你的这个页面建立什么样的页面文件吗? 请你细细阅读: 1首先,你的页面是"新"的,也就是原创与伪原创. 2搜索引擎蜘蛛抓取了您的网站后,读取页面编码,作者,创建时间等属性信息. 3抓取网站内容信息,及我们常用的搜索引擎抓取模拟工具得出来的文字内容. 不知道这里能不能贴那么多抓取信息,这里就不给出来,大家可以到http://tool.chinaz.com/Tools/Robot.asp