&">nbsp; 搜索引擎竞争对手Google、雅虎和微软摒弃前嫌转而合作,并于周四发表联合声明表示,网站站长应用该项技术更易于使得自己的站点被搜索引擎索引到。
这三家公司均采了用Sitemaps 协议,该项协议首先由Google于2005年6月发布,它允许站长手工提交自己网站的feed给Google并核查站点是否被爬虫抓取。
雅虎搜索产品部门主任Tim Mayer解释说。在此之前,站长必须为每个主要的搜索引擎单独提交数据。现在只需不时登录搜索引擎为他们的网页提供的设置区完成必要的信息修改和发布。
手工提交页面正在逐渐成为网站爬虫的补充。同时爬虫并不保证这些页面一定会被收录进搜索引擎的索引。
“这是Google、雅虎和微软公司首次在网络搜索引擎爬虫程序方面的主动合作,三家公司均表示支持Sitemaps 0.90。对于站长们来说这是一种免费且简单易行的方法,他们可以很方便的向搜索引擎提交自己的站点并被全面且高效的索引到,搜索结果也极具代表性。”在三家公司共同发表的一份声明中称,Sitemaps能为用户提供更优秀的质量和刷新搜索结果。
这项技术最先在Google和雅虎上应用。“我们认为它很实用,站长们可以使用相同格式的内容在各种不同的搜索引擎上提交信息。”Mayer解释说,“我们联合提出这种格式,并建议其他的搜索引擎都接受它。”
在公司维护一些英文网站,主要是日常一些SEO方面的工作,如增加链接,做一些关键词等,但自从2009年3月份以后,网站经常被挂满了隐藏链接,这是典型的黑客侵入了网站系统,可能已经加了后门,从那以后,首页经常被加入隐藏链接,虽然一直被覆盖,但一两天以后,首页又被重新加上了隐藏链接。但对于这件事,我也只是敷衍了事,检查日志文件看不出什么眉目,也就没当回事,想就只是加几个链接而已,也没有什么大不了的。
六月十九日,早晨检查网站,看到网站访问量大减,心中觉得奇怪,看一下访问者都是从Yahoo! 和 Bing 进来的,就是没有从Google 进来的,看一下 Google 管理员工具看到 Google 早在十七日就已经发邮件过来通知我,网站因为添加隐藏文本而被删除,吓了一跳,于是下载了整个网站,找到了黑客后门,删除掉,修改页面,重新提交审核,两天以后,也就是二十一号早晨发现网站已经被重新收录,而且排名位置基本没变。
从中,有几个问题比较值得注意,从十七日Google 发邮件通知删除索引,但那一天还是有从 Google来的流量,到十九日就完全没有从Google来的流量了,导致访问量变化非常明显,那就是说即使 Google 搜索质量小组发邮件来说已经删除索引了,但实际上索引并未完全删除,还是有流量从Google 过来的,而且两天后,Google 重新收录网站,排名基本都没变,索引页面数也和以前比没有变化多少,但尤其值得注意的一点是,居然发现首页的 Google 快照是 六月十八日, 这一发现确实是挺让人震撼的,那也就是说,Google spider 在删除索引以后,还是来抓取页面的。
在十九日删除索引后,整个网站在Google是搜索不到的,后来重新收录,看到大部分的页面的快照还是在十七日之前的,认真分析一下的话,会想说,索引真的是完全被 Google 从索引数据库中抹除了吗,恐怕未必,否则快照日期不会是在删除之前的日期,而应该是审核通过重新抓取的日期。
在此,大胆提出一个猜想,Google 搜索引擎的算法没人知道,但有一些痕迹是可以猜想的,我想:Google 是不是采取这样的一种策略,专门有服务器存放被惩罚的或者是被删除的网站,就像google sandbox 一样,甚至被删除索引的网页的处理方法就是 google sandbox 的另一种表现,当一个网站被删除索引时,索引全部移动到这样的一个服务器中,在正常排名的索引中再也不会有这些网站存在了,但蜘蛛还是会访问这些被屏蔽的网站的,可以通过快照日期能够看出来,不然的话,通过服务器的日志文件也能看出来,一旦网站被重新审核通过,从这样的一个服务器中移动到正常索引中,时间会很短,这也是为什么一旦审核通过,收录页面数量会从0回来以前的水平,如果是重新收录的话,不应该会有这么快的收录速度。
只是把自己发现的一些问题提出来,希望朋友们提出自己的看法,和我一起交流。