解决因服务器而导致的蜘蛛抓取失败

　　服务器是网站生存的基础，不论是什么原因造成的服务器封禁，都直接影响蜘蛛的抓取，影响网站的用户体验，不利于seo工作的展开。重庆seo奕杉其将以自己的亲身经历，结合网络上一些朋友对这类问题的分析，总结出造成服务器封禁的三点主要原因：

　　一、服务器不稳定

　　现在的服务器多如牛毛，价格也各不相同，质量方面也是相差甚远，站长们往往在选择的时候都是“只认价不认质”，有的空间商为了节省资源，故意屏蔽掉spider(蜘蛛)的IP，导致spider抓取失败，网站页面就无法被搜索引擎收录。

　　解决方法：选择有实力的正规空间商，尽可能保证您的网站稳定。服务器和空间的稳定性需要一定的技术实力来保障，一些没有实力的空间商，可能无力提供良好的服务，服务的稳定性无法保证。我们可以很形像的打个比喻：如果将“人”比喻为网站内容，那么服务器就是我们的“家”，它为我们挡风避雨，为我们的生存提供了一个优良的环境，而服务器的好坏将影响我们所能承受的风险。我想，谁都不愿意住在没有安全保障的屋子里，拿自己的生命开玩笑，同理，网站也是如此!如果您现在的服务器不理想，有必要另选时，请暂时让旧服务器能够使用一段时间，并且做301跳转，尽量减少更换服务器带来的一系列损失。

　　二、人为操作失误

　　对搜索引擎蜘蛛认识不够，对一些冒充搜索引擎spider的IP无法正确判断，继而误封搜索引擎IP。这样会导致搜索引擎不能成功抓取网站，无法成功抓取新网页，以及将之前已经成功抓取并收录的页面判定为无效链接，然后搜索引擎将会对这些死链接进行清除，继而网站页面收录减少，最终导致网站在搜索引擎的排名下降。

　　解决方法：正确认识各搜索引擎蜘蛛，而搜索引擎使用的 IP 地址会随时发生变化，为确保能够正确识别各搜索引擎IP，您可以使用DNS反查方式来确定抓取来源的IP是否属于正规搜索引擎，防止误封。

　　例如查Baiduspider：在linux平台下，您可以使用host ip命令反解ip来判断是否来自Baiduspide的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名，非 *.baidu.com 或 *.baidu.jp 即为冒充。

　　$ host 123.125.66.120

　　120.66.125.123.in-addr.arpa domain name pointer

　　baiduspider-123-125-66-120.crawl.baidu.com.

　　host 119.63.195.254

　　254.195.63.119.in-addr.arpa domain name pointer

　　BaiduMobaider-119-63-195-254.crawl.baidu.jp.

　　三、保护性的偶然封禁。

　　1、如果网站的访问量过大，超过自身负荷，服务器会根据自身负荷进行保护性的偶然封禁。这种封禁是短暂性的，只要访问量下降到服务器的承受范围之内，那么服务器就会正常工作。

　　2、还有一种情况是spider造成的，搜索引擎为了达到对目标资源较好的检索效果，蜘蛛需要对您的网站保持一定量的抓取。搜索引擎会根据服务器承受能力，网站质量，网站更新等综合因素来进行调整，建立一个合理的站点抓取压力。但是会有一些例外，在压力控制不好的情况下，服务器会根据自身负荷进行保护性的偶然封禁。

　　解决方法：1、如果是访问量造成的压力，那么恭喜你，说明你的网站已经拥有可观的访问人数，我们就应该升级服务器，来满足不段增长的访问量。2、如果是spider造成的，我们可以采用如下方式来减轻spider对服务器产生的压力：A、利用robots文件，屏蔽掉不想被spider抓取的页面。B、采用nofollow标签，屏蔽不想被spider爬行的链接。C、页面中较长的CSS、JS代码移到外部文件。D、删减多余代码。应当注意的是，以上两种情况在返回的代码中尽量不要使用404，建议返回503(其含义是“Service Unavailable”)。这样spider会过段时间再来尝试抓取这个链接，如果那个时间站点空闲，那它就会被成功抓取了。

　　最后，希望站长尽量保持站点的稳定，对于暂时不想被搜索引擎抓取的页面，使用正确的返回码告知搜索引擎，如果确实不想被搜索引擎抓取或者索引，可以写robots信息告知。

　　作者：奕杉其

　　来源：重庆seo

　　文章链接：本文来自http://www.137sv.com/seotechnique/27.html转载请注明来源，并保留来源的完整性，谢谢。

时间： 2024-11-18 14:44:24

解决因服务器而导致的蜘蛛抓取失败

解决因服务器而导致的蜘蛛抓取失败的相关文章

总结几点现在百度更新蜘蛛抓取的几点规律

蜘蛛抓取网页过程的四步曲

ython-如何欺骗服务器，可以无限制的抓取网页！！！

蜘蛛抓取的行为

分享如何通过robot灵活控制蜘蛛抓取

影响蜘蛛抓取内容的四个因素

Python打印scrapy蜘蛛抓取树结构的方法_python

php记录搜索引擎蜘蛛抓取页面代码

页面被蜘蛛抓取后将被如何建立索引？