网站404页面返回码错误导致的网站被K案例分析

  我站平安的度过了8月的K站风波,然而却在本月不幸中招,终于被K。

  近两个月百度的算法调整误伤了很多高质量的网站。但我们依然认为这只是百度的暂时调整,相信百度会认真对待每一个站,只要坚持提供高质量内容得到用户认可,迟早有一天会恢复收录并取得更好的排名。

  经过我详细的研究,详细研究各站长工具提供的数据,并分析百度蜘蛛访问日志等,发现本次被K事件的主因是由于网站大规模改版导致的文件丢失导致的大量死链后本站对错误页面的404返回码处理环节出现了重大问题。次要原因是被某些被黑客入侵篡改的高权重网站的外链指向,以及很久前被黑客入侵的遗留影响。

  本次改版后服务器使用新的服务器系统,可提供更大的网站访问承载量,但由于对新服务器系统的部分功能不熟悉,导致配置完成后,输入错误页面后虽能正常跳转404页面,但返回200状态码。

  详细技术细节解析:

  1.本次被K事件开始的最初时间可追溯至10月17日(上周三),经过我们对百度站长平台抓取压力反馈工具的分析,百度在10月17日对白银投资的抓取量为0,为本次K站的开端,但随后第二天蜘蛛抓取量便恢复,并逐步大幅增加,截止目前蜘蛛每日抓取频率已突破6000次,这也是初步恢复的表现。

  


 

  2.然后的动静可在百度统计中看到,10月18日其实已经被K,百度统计后台的索引量由50234个页面降到小于10,但当时SITE网站显示的页面收录量依然为37300个页面,以及关键词排名依然正常。

  


 

  3.经过站长工具的网站历史数据可以看到,10月19日开始,百度前台展示的收录量开始迅速下降,但依然有收录,甚至还有三条新收录页面。但经过3天的过程,收录迅速降低,至10月21日,网站仅剩188条收录。

  


 

  4.网站正式被K是发生在本周一,也就是10月22日。当天收录降为0,但当天仍然时不时的可以SITE出部分收录网页。

  随后我们分析了网站的日志文件。发现蜘蛛在10月22日当天的访问非常异常,页面抓取的竟然全都是错误页面,而且抓取一些游戏外挂的敏感关键词。

  


 

  访问日志如上所述,经过我们的观察,百度蜘蛛访问的路径全部都是以前网站改版前的页面,由于改版我们只保留了部分生成的静态页面,造成多数多数无法访问,让我们更疑惑的是有一些根本不存在的目录文件、某游戏下载等、被百度蜘蛛访问。

  经过我们详细的查看,在网页上打开该路径,返回404错误页面,在服务器端文件系统中也没有找到该路径。

  这些游戏的关键词超链接地址本不应该存在,更没有外链指向,唯一的可能是存刷百度关键词或者某高权重网站被黑客入侵挂了带有该锚文本的外链,从而引来蜘蛛访问本站该路径。对于这种外部的问题我们束手无策,只能提醒广大站长更多的注意网站安全问题。

  我们仔细的检查了模拟客户端访问的网页HTTP返回码,发现了问题的核心是这种错误访问,本应该返回404代码,让百度直接过滤。但在百度蜘蛛抓取的过程中,竟然返回200代码。

  于是我们详细检查了服务器的问题,确认了我们的404错误配置存在问题,任意错误的访问虽然能够给出错误页面,但返回代码是200,我们在第一时间予以修正。

  随后经过我们的修改,第二天百度蜘蛛返回的状态码全部都是404,相信很快百度会重新扫描本站全部文件,从数据库中逐渐去除乱序文件,收集抓取的正常网站文件,逐步放出沙盒。

  


 

  经过几天后,百度蜘蛛大量访问,大量抓取。但大多是123.125.68段的百度降权蜘蛛或者123.125.68段的低权重抓取,抓取的错误页面偏多。偶尔有正常页面被抓取。

  在今日终于出现了220.181.108段的高权重蜘蛛抓取首页。根据网友的经验,该蜘蛛访问后几天内会被放出收录,不知道对于被K的网站有没有作用,期待尽快恢复。

  本文由黄金小说网www.hjxs.com原创。

  最后提醒大家,做网站一定要注意服务器各种配置,特别是404错误页面的返回码,一个稍不留神就会造成百度被K的严重后果。

时间: 2024-08-30 14:08:34

网站404页面返回码错误导致的网站被K案例分析的相关文章

ASP.NET设置404页面返回302HTTP状态码的解决方法_实用技巧

在配置文件中配置404页面如下: 复制代码 代码如下: <customErrors mode="On" defaultRedirect="404.aspx"> <error statusCode="403" redirect="404.aspx" /> <error statusCode="404" redirect="404.aspx" /> <

404页面为什么会影响你的网站排名

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 前段时间曾经因为404页面,而导致网站排名下降,现在和大家一起交流下自己对404页面的认识 404页面的设置不当,将会有可能影响到网站的更新和排名,如果404页面设置不当,返回提示的HTML代码,将导致页面返回200状态码,此时的危害在于,当很多页面找不到时,都返回和访问正常页面时返回一样的200状态码,将使搜索引擎认为该链接存在,并以错误页

IIS下自定义404页面返回200状态码的严重性及解决方法_win服务器

在了解404页面前,先给大家了解一下几个常见的HTTP状态码.* 404 : 请求的网页不存在(不排除日后该链接有效的可能性):* 410 : 请求的网页不存在(永久):* 200 : 服务器成功返回网页* 302 : 网址临时重定向(跳转)* 301 : 网址永久重定向* 403 : 拒绝访问* 500 : 内部错误 当访问一个不存在的页面时会返回404状态码,告诉搜索引擎这个页面不存在或者已经删除.默认情况下没做自定义404页面时,访问一个不存在的页面会如下图所示 出现这样的页面无论是对用户

git学习------&amp;gt; 解决Gitlab 版本升级之后,发送 merge request 出现 http 500 的返回码错误

今天有同事在Gitlab上发送 Merge Request的时候,直接出现如下所示的界面,提示http 500,服务器内部出错. 一.错误描述 1.1 创建新的 Merge Request 1.2 填写 Merge Request 相关信息 1.3 发送 Merge Request ,出现500错误 1.4 登录管理员账户,在[Admin Area]–>[Monitoring]–>[Logs]–>[production.log]里面,搜索到错误信息如下所示: 错误描述部分信息如下: St

网站404页面3秒后跳到首页的实例代码_javascript技巧

复制代码 代码如下: <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"><html><head><meta http-equiv="Content-Type" content="text/html; charset=GBK">&

一句话输出网站404页面,REFER及相关排序

cat www.log|awk '$9~/404/ {print $7"," $11}'|sort|uniq -c|sort -nr > ./www404.csv  

电脑电源老化导致电脑死机的案例分析

  电脑死机故障症状:购买的品牌机,CPU为赛扬D 1.7GHz.128MB DDR266内存,40GB的希捷硬盘,后来升级加装了一条128M内存.配置了内置56KMODEM和电视卡.然后系统启动后不久就死机,显示器黑屏无信号,光驱灯长亮.无论进WIN98系统.用系统盘引导.或进入CMOS系统都会出现此故障,一旦死机无论复位键还是电源键均不能关机,只有拔插销且必须等待一定时间后才能再次开机. 电脑故障分析:由于此机器刚装的操作系统,因此不可能是软件故障所造成的,为了排除软件故障,笔记还是重新安装

404错误页面返回的状态码是200之严重性

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 最近在做网站的改版时发现站点的404错误页面是IIS的默认页面,内容很单调.为了提高网站的友好性,我便重新设计了一个404错误页面:接着,我便登录至A服务器 提供商的后台开始操作,准备更新该404错误页面. 在后台的整个操作还是很便捷的,A服务器提供商这块的用户体验确实做的不错!很快,我按照提示就完成了404错误页面的更新了.打开我网站的某一个页面,随便的在该域名后

Nginx中定义404页面并且返回404状态码的正确方法_nginx

前几天,一朋友出程序出问题却怎么查都没看出问题,于是让我帮它看看.其实它是ajax请求了很多个模板,然后把模板写到页面中.关键是所有请求的页面都是200正常状态码返回,表面上看没什么问题,实际上有些请求虽然返回200状态码,但给回的状态码是200.WebServer是nginx,直接告诉我应该他们配置了nginx的404错误页面,虽然请求不存在的资源可以成功返回404页面,但返回状态码确是200. 404.html 复制代码 代码如下: This is 404 page. 请求一个不存在的页面: