几乎任何有抱负的通用搜索引擎都有一个共同的梦想:整合人类所有信息,并让大家用最便捷的方式各取所需。
对此,百度说:“让人们最便捷地获取信息,找到所求”;谷歌说:“整合全球信息,使人人皆可访问并从中受益”。
这两者表达的实际上是同一个愿景。
然而,这注定是一项不可能完成的任务。据科学家估测,人类信息大概只有0.2%实现了web化,并且这个比例很可能在持续降低。更甚的是,即便在已经web化的信息中,搜索引擎的蜘蛛能抓取到的和不能抓取到的比例为1:500。
万里长征的第一步即是对付“暗网”。所谓“暗网”,简言之即为“搜索引擎抓取不到的网页数据”。点亮“暗网”早已纳入各大搜索引擎的日程之中,很明显,这将是一场旷日持久的战争。
“暗网”之谜
1994年,学者JillEllsworth 提出了一个名为“Invisible Web”(不可见网络,即暗网)的新词汇,并对其下了定义:这些网站可能已经被合理地设计出来了,但是它们却没有被任何搜索引擎索引,以至于事实上没有人能找到它们。
而从信息量来讲,与现在能够索引的数据相比,“暗网”更是要庞大得多。根据Bright Planet公司此前发布的一个名为《TheDeep WebSurfacing The Hidden Value》(深层次网络,隐藏的价值)白皮书中提供的数据,“暗网”包含100亿个不重复的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍。更让人无所适从的是,Bright Planet发现,无数网站越来越像孤立的系统,似乎没有打算与别的网站共享信息,如此一来,“暗网”已经成为互联网新信息增长的最大来源,也就是说,互联网正在变得“越来越暗”。
当然,所谓“暗网”,并不是真正的“不可见”,对于知道如何访问这些内容的人来说,它们无疑是可见的。
迎战“暗网”
对于庞大的“暗网”,目前搜索业界通行的策略主要有两种:其一,构建更有针对性的“暗网”爬虫,以便获取后台数据库;其二,与“暗网”网站合作,实现信息的对接和上浮。
对于第一种策略,它始终贯穿搜索引擎的发展过程。百度产品部相关人士对此表示,目前针对搜索引擎的升级和更新中,大部分与“暗网”问题有关,只不过对普通用户来讲,他们很难察觉。
第二种策略似乎更成效。不管是国外的谷歌、雅虎,还是国内的百度,都有针对性的计划,并且用户已经体验到了它们带来的变化。
巨头的较劲
股民刘先生最近在百度搜索时无意中发现,当关键词为股票代码时,得到的结果第一项便是该股票的K线图,还有当日的成交量等信息。而切换到谷歌,得到的结果如出一辙。他体验到的这一技术,在百度被称为“阿拉丁”,在谷歌则叫“onebox”。
除了股票,在百度搜索英文单词、人民币汇率、天气预报、电视节目表等等,网民都会有意外收获。这一点,网民的感触要比在谷歌中深,一个典型的例子是,在百度和谷歌中分别输入“天气”,百度将直接根据用户的IP判断其所处位置,给出当地的天气情况,而谷歌则在第一个结果中给出了一个搜索框,让用户进一步查询。
显然,在用户体验上,百度占了上风。这得益于其上线不久的“搜索开放平台”,这一平台是“阿拉丁”计划的一部分。其运作逻辑是:百度开放API接口,各大网站提交已经结构化的数据,设定好关键词和展示方式、位置,获得百度审核后,当网民检索设定的关键词,则自动触发这一机制,展现最直接的信息。
对比百度搜索开放平台和谷歌onebox,两者的最大区别就是与网站的互动,前者更为充分。换句话说,onebox更多是谷歌自己在使劲,而搜索开放平台则是百度与站长一起在努力。据百度阿拉丁项目负责人透露,平台上线两个月以来,站长提交的资源数量超过3000个。
搜索的变革
在对付“暗网”的过程中,搜索引擎正在完成它的蜕变,不论是后台还是前台,这才是这场战役的真正意义。“搜索引擎越来越聪明了,它能看穿我的心思。”90后网民小龚说。他是一个球迷,平时最喜欢看意甲,一天在百度搜索“意甲射手榜”,“居然结果中直接就是榜单,让人意外。”
一位业内人士表示,搜索引擎试图让人们以最小的成本获得最直接的信息,“哪怕是少一次鼠标点击,也是巨大进步。”
有意思的是,随着百度搜索开放平台、谷歌onebox、雅虎Search Monkey等计划的展开,搜索结果真正变得“乱糟糟”的——你总能看到网页链接的结果中间夹杂着图片、新闻、视频,或者图形、表格等信息,这种变革对网民的体验大有裨益。
而评论人士则指出,这些计划将搜索引擎从“只读时代”带入了“可写时代”。或许未来,对于每一个网站,每一个用户,都有资格改变搜索引擎。