近日,通过分析网站记录发现,来自sogou+js+robot的记录很多,远远超过了其Sogou+web+spider的抓取量。
sogou+js+robot主要是抓取页面中<script src=""></script>欠入的地址,然而用SOGOU搜索时发现,sogou+js+robot抓取的内容并未被检索到。Sogou+web+spider主要抓取的是页面,这个最为常见,与其它搜索抓取几乎相同。
SOGOU抓取JS欠入的内容,但并未作为检索,眼镜蛇首先想到了SOGOU开始利用JS来检测作弊网站。目前众多作弊网站都会在页面中欠入一个跳转JS文件,页面是让搜索抓取的,因为众多搜索不抓取JS,导致了利用程序很难识别页面是否跳转,是否作弊。
另一种猜想是,目前CMS或者论坛等程序提供的多是JS调用,SOGOU利用其蜘蛛sogou+js+robot来抓取JS内容,然后整合到页面中提供给用户搜索,但测试了几家网站并未发现SOGOU将JS的内容提供检索服务。
SOGOU的流量和影响力虽然还很落后,但从其输入法,蜘蛛抓取等多方面都在不断创新,有努力加上创新离成功会越来越近。
时间: 2024-08-31 22:41:46