近日,一篇“51.com被百度惩罚?”的文章出现在网上,从文中得知51.com几乎被百度拔毛,只剩一个首页。
联系到五一国庆左右百度大规模检查并封杀作弊网站,开始让业界以为51.com是百度惩罚的网站之一,通过某朋友提示到51.com的robots.txt文件,让大家明白了百度网站只收录一页的原因,并不是搜索引擎人为所至,而是51.com自身原因。
在查到了http://www.51.com/robots.txt文件的最后更新时间为2007-4-24 12:05:37,http://home.51.com/robots.txt文件的最后更新时间为2007-4-20 14:41:01,http://kf.51.com/robots.txt文件的最后更新时间为2007-4-20 14:46:02,http://my.51.com/robots.txt文件的最后更新时间为2007-4-30 13:16:52。通过分析可以看出,这些robots.txt并不是一天加入的,如果说51.com程序或服务器有漏洞,那黑客不仅仅会加个robots.txt,还会拿掉程序,复制数据库等操作,这些大动作应当会被技术人员发现,及时处理掉。
众所周知,网站80%的流量来源于搜索,如果说51.com流量特别之大,脱离搜索也可生存,那它将搜索屏蔽是可以理解的。但现在51.com偏偏在高速发展期,需要搜索的大量流量,51.com的robots.txt文件是针对所有搜索的,不仅仅是针对与自己产品相冲突的百度。同时51.com将包括kf.51.com域名下的所有页面也屏蔽,显然说不过去。
联系到51.com各域名下的robots.txt更新时间,近日myspace.cn上线等,可以初步怀疑51.com想借机炒作,引导业界关注,没想到被细心人员发现了robots.txt文件,导致炒作未能达到预期。
http://www.51.com/robots.txt的内容:
以下为引用的内容: User-agent: * Disallow: /404.php Disallow: /9588.php Disallow: /addAccessCount.php Disallow: /addClickCount.php Disallow: /ConfirmPhoto.php Disallow: /go.php Disallow: /home.php Disallow: /ip.php Disallow: /jb.php Disallow: /login.php Disallow: /norz.php Disallow: /rzphoto.php Disallow: /send_msg_new.php Disallow: /show_image.php Disallow: /show_photo.php Disallow: /update_9588_status.php Disallow: /home/ Disallow: /abc/ Disallow: /cache/ Disallow: /Charge/ Disallow: /class/ Disallow: /cms/ Disallow: /face/ Disallow: /help/ Disallow: /hm/ Disallow: /i/ Disallow: /Image/ Disallow: /images/ Disallow: /Inc/ Disallow: /Interface/ Disallow: /js/ Disallow: /kongjian/ Disallow: /lib/ Disallow: /mid/ Disallow: /Music/ Disallow: /myie/ Disallow: /Photo/ Disallow: /port/ Disallow: /shengdanjie/ Disallow: /smc/ Disallow: /temp/ Disallow: /Templates/ Disallow: /user/ Disallow: /User/ Disallow: /v4images/ Disallow: /vda/ Disallow: /websync/ Disallow: /yijian/ |
http://home.51.com/robots.txt的内容:
以下为引用的内容: User-agent: * Disallow: / |