百度和google在处理死链接的效率上差别很大。尤其对于被黑而导致挂上大量垃圾页面的站点来说,如何尽快清除这些垃圾收录很成问题。
google一般对于失效的垃圾页面,处理速度较快,蜘蛛大量爬行到404页面后,便会停止收录这些页面,并逐步在索引上将其删除。而百度则会效率低很多,以本站为例,一年前被挂了个垃圾页,生成了大量的垃圾动态页面,发现后将该页面删除,搜索引擎收录的垃圾页在google很快就消失了,从日志看,百度蜘蛛也是每天到访,肯定也抓取不到之前的垃圾页面,但收录却迟迟不删除。
也许百度也意识到了自身处理死链存在一定问题,所以特别在百度站长工具中提供了死链提交的功能:
提交死链的注意事项:
1、将提交的链接页面状态设置为404 ,尤其要注意404页面设置好以后,要避免404页面返回200状态码;
2、定期新增死链,用新xml文件提交最佳,不要在已有xml中更新;(这是因为txt的文本由于没有代码分隔,不规范的URL、带连接符或参数的URL等有可能会造成抓取错误)
3、每个地址文件最多包含50,000个网址且需小于10MB;(这与sitemap的要求是一样的)
4、如果验证了网站的主域,那么Sitemap文件中可包含该网站主域下的所有网址。(二级域名的死链也可以在此提交)
提交死链的操作流程并不复杂,可参考百度官方死链提交工具帮助,但对于死链文件却没有现成的工具可使用,那么如何制作百度死链的xml文件呢?
1、在搜索引擎site收录到的失效页面,全部贴到excel中
2、前后补齐xml格式所必须的标签,参考下图
3、复制到编辑器中,按xml格式补齐相应代码,参考XML格式及规范说明
4、完成死链文件并上传到网站根目录
5、在站长工具后台提交并后期管理