谷歌爬虫在抓取中遇见到的软404错误
经常使用谷歌网站管理员工具的朋友可能会在故障诊断中的抓取错误中发现一些软404错误提示,在以前的“404错误对网站的影响”一文中提到过软404。
一般情况下,当请求的网页发生错误的时候,会出现两种错误代码信息,一种就是我们经常说的404,另一种就是软404。
按正常的思路,当一个网页不存在的时候,会返回一个404代码来表示,软404是这些不存在的网页返回的不是正常的404错误代码,而是200代码(日志代码)。
为什么会出现软404
软404代码出现的情况大致为:
服务器配置错误;
网站程序或模版出错;
网站被恶意攻击导致;
网站管理员失误造成。
很多时候网站管理员难免发生一些小的失误,比如:
失误造成的软404错误
有时候由于误操作或者程序问题,对于不存在的网页,直接返回到首页。
软404有那些影响?
软404代码会让普通用户感到困惑,看见一个很感兴趣的链接,点击后却不是自己想要的内容;对于搜索引擎的蜘蛛程序来讲,会花很多时间在网站上爬行和索引那些并不存在、而且经常重复的URL。会造成网站收录量比较低(因为蜘蛛程序花了大量时间在爬行一些并不存在的网页,导致一部分含有独特内容的网页反而有可能无法被及时发现)。
如何处理软404?
对于软404,最好的处理方法是返回404代码,这样用户可以根据404错误页面来寻找相关页面,爬虫程序也会很好的处理404错误,另外可以根据上面提到的导致软404的几种可能性来检查网页,从而修复错误。
但有时候现实并不是预料的那么理想,这时候我们可以利用robots.txt文件或者nofollow来阻止爬虫程序,在普通用户方面,软404必然会导致页面的跳出率过高,那么,为了达到更好的用户体验,我们可以适当修改软404的错误提示页面而不是返回系统默认页面甚至是网站首页。
本文来自何清勇 http://www.7714.org