在讲解这个话题之前,先说一说404错误页面是怎么产生的?当网站改版和调整,移动或者删除了以前的网站目录和网页,而用户和搜索引擎蜘蛛再次访问这些网页路径,会发现这些页面不存在,这就是常说的错误页面。如果你的网站正确设置了404错误页面,查看服务器日志会发现404状态码。原网站页面大量移除,这样的行为对于访客和搜索引擎都是非常不友好的,被收录到搜索引擎数据库中的页面如果大量消失,非常有可能触发沙盒和降权现象。
但在实际过程中,为了网站的长远发展,网站调整和改版都是很难避免的。二老猫最近买了一个老域名来建一个护肤品网站,第二天查看IIS日志发现蜘蛛每天大量抓取原网站的页面,但是那些页面和目录都不存在了,为了避免域名被打入沙盒和降权,建议有条件的朋友对错误目录和页面进行301永久重定向,而我是采取了404错误页面的方法来降低对新网站带来的影响:
一、制作404错误提示页
制作404页面在醒目位置要明确注明“访问的页面已经不存在,您可以返回×××网站首页进行浏览你所需要的内容”,并在这段说明中加入首页地址链接来引导用户,一方面可以降低用户流失,另一方面可以和搜索引擎蜘蛛对话,告诉蜘蛛这是一个错误的的地址。许多朋友将404错误页面跳转到首页,二老猫认为这是存在风险不可取的,会被搜索引擎误认为做弊导致首页降权。
二、404错误页的测试
页面制作好以后,命名为404.htm或者其它后辍传入网站根目录(由于个别虚拟空间要求不一样可详细查看空间说明和询问主机商),上传完成后在虚拟主机管理面板上设置自定义404错误页路径。传上去后还没有完事,有更重要的工作,那就是测试404错误页面的有效性,许多网站提供“http状态查询”,输入一个不存在的页面和或目录然后检测,当返回状态码为404说明是有效的,如果不存在的路径返回状态码为200那就需要注意,说明你的设置无效或者你的主机自定义404错误页面有问题,需要联系主机商解决。下图为正确设置了404错误页面返回的状态码。
三、设置robots禁止抓取错误页面
对于一个功能完善和友好的新网站,404错误页面是必须的,但是我现在的情况光制作了404还不够。301定向太麻烦,后来想到了robots,这是网站与搜索引擎蜘蛛对话的一个重要文件,那我就在这个文件中告诉蜘蛛禁止抓取不存在的目录和网页。查看空间访问日志发现蜘蛛主要是抓取名为mynist目录下的文件,这个目录是以前旧网站的静态网页存放目录,弄清楚就好办了,在robots文件中添加如下语句Disallow:/mynist/,意思是禁止抓取此目录下的任何文件,再仔细查看日志,将不存在的目录和页面一一添加在robots文件中。百度站长俱乐部lee提到过,robots新添加的语句并不会立即生效需要过程的,正常情况下一周内生效,所以在修改后几天内蜘蛛仍然会抓取已禁止的页面是正常的。
在这个期间我每天为网站更新三篇原创内容,并每天做少量的外链,大概10天后网站首页快照变隔天了,内容页面也陆续被百度放出来,这样的结果说明我的做法是正确的,我买来的老域名并没有被降权和打入沙盒长久观察。所以今天把这个方法分享出来,希望能给网站改版的朋友做个参考和提供一些帮助。本文由淘宝裂帛女装http://www.21rip.info小编二老猫原创首发,如需转载请保留版权。