有许多新的搜索引擎(最新统计有100多个)都在开创一些搜索技术的创新。下面是一份17大搜索创新清单,我们认为,这些创新将来会是破坏性的(译者:关于破坏性创新,请参见这里)。这些创新分为4类:查询预处理;信息来源;算法改进;结果可视化和后处理。
[其中的某些创新也在Google的存在各种产品中,但是,正如下文所述,Google的主搜索页中不是缺失了这些功能,就是功能还很有限。]
查询预处理
这类改进的主要目的是应用逻辑来尽量预测用户的意图,并由此改进查询的输入。
1. 自然语言处理
这一功能最初是由Ask.com开创的。同期最著名的例子是Hakia 和 Powerset,二者以不同的方式试图理解用户查询背后的语义或意思。这些搜索引擎与Google的很大的不同,是他们认为“忽略词”(stopwords)非常重要,如次要的连词,像by, for, about, of, in等,Google通常会忽略它们。
2. 个人相关性(亦称“个性化”)
长久以来,大家认为按某特定用户的兴趣和要求处理查询,能获得更高相关性的搜索结果。 Google已在其搜索引擎中支持这一功能,但需要登陆才能使用。很多用户理所当然地不情愿这样做,因为这样可能会给Google提供追踪其特殊的搜索内容的条件。 [即使John Battelle也认为这个想法有点可怕,尽管Google的Matt Cutts并不同意这个看法。] 所需要的就是一种虽然是匿名方式,但能提供个性化的搜索方式。从更广泛的角度来说,提供多个网站上的个性化会更加有用。 Collarity就是拥有这一功能的搜索引擎。
3. 定制的、专门的搜索
这是一个简单但强大的功能。这一应用的典型代表是SimplyHired,一个求职招聘的垂直搜索引擎,能提供强大的、预设的搜索,比如“适合年纪大的员工的雇主”、“允许上班带狗的雇主”等。
信息来源
这些改进着重于潜在的数据来源:额外的内容类型和对数据来源的限制,提高了搜索结果的可靠性(减少垃圾信息)。
4. 新的内容类型
今天的年轻人正像交流文字信息一样,在手机上舒服地交流照片和视频,成为这个时代的标记。在网上,富媒体内容-图片、音频、视频、电视等,及与其内容有关的语义信息一起正在爆炸性地增长。 搜索引擎也愈加需要相应地支持这些内容类型。一些支持丰富内容的搜索引擎的示例如下:
-富媒体搜索:音频 (odeo, podzinger ),视频(Youtube, truveo),电视 (Blinkx ),图片 (Picsearch, Netvue )
-专业化内容搜索:博客 (Technorati ),新闻(Topix ),分类广告 (oodle )
当然,Google在这一领域也非常活跃,如Google Blogsearch(博客),Searchmash (图片), Google视频, Google新闻等,因此,也许将这一项放在这个清单里不大公平。尽管如此,理想的情况是,将不同的媒体结果集合在一个搜索里,正如Searchmash已经做的那样(Retrevo是另外一个好例子)。
5. 限定的数据来源
最使搜索用户烦心的问题之一是垃圾信息。由于营销商们更加聪明,正日益使用更多侵略性的SEO(搜索引擎优化)技巧,搜索结果的质量就又下降了。 (Google,作为最流行的搜索引擎,更是众矢之的。) 对一系列受信任站点的限制性搜索排除了这一问题,尽管它也缩小了搜索内容的领域—它为某些类型的搜索很好地提供了真实的、优质的结果,比如,当为一个小学项目研究火山时,搜索维基百科(Wikipedia)、国家地理(National Geographic)和科学/教育站点。
这一应用最好的例子来自A9.com,它能从多种数据来源中提供内容,并允许用户对每一个搜索作出清楚的选择。Google Co-op 和 Yahoo! Search Builder 能使第三方可以创建这种解决方案;Rollyo早已经是这一领域的先行者!
6. 特定领域的搜索(垂直搜索)
通过聚焦一个单一的垂直方向,搜索引擎能提供更好的用户体验,它对某一特定领域更加全面、简明。针对不同的领域有令人难以置信的大量的垂直搜索引擎,更多资料请查看Alex Iskold在读写网(Read/WriteWeb)上的文章或在Software Abstractions博客上的概述。 [要更全面地了解这方面的信息,Sramana Mitra的在线旅游服务概述介绍了垂直搜索与通用搜索的关系。]
算法改进
这些改进着重于提高潜在的搜索算法以提高搜索结果的相关性并提供新的搜索能力。
7. 参数搜索
这类搜索更接近于数据库查询,而不象文本搜索。它回答的问题从本质上不同。参数搜索有助于发现问题解决方案,而不是文本文档。比如,Shopping.com允许你用材料、品牌、风格或价格不同来限定衣服搜索;像indeed 这样的招聘搜索网站让你限定搜索匹配的邮政编码;GlobalSpec让你搜索工程部件时指定多种参数(如搜索工业管道时输入各种参数)。参数搜索是垂直搜索引擎的天然特性。
Google已在通用层面上组合了这一特性,比如在高级搜索页面上的参数,但是冲淡了它的有用性。当你深入进标准的搜索结果,或当你限定搜索某一特定垂直领域时,附加参数的强大功能最能充分体现出来。
8. 社会化信息输入
Yahoo! 的Bradley Horowitz相信社会化输入未来将是搜索技术一个重要的分水岭(微软也有同样看法)。来自大量用户的聚集信息输入使搜索引擎受益于群众的智慧而提供优质的搜索结果。当然,如果某些个别的输入缺乏独立性或可能是故意捣乱,搜索结果可能会无效。 在这一领域中提供的不同的服务中,del.icio.us 是根据这一方法提供优质搜索能力的典范。[在我较早发布的文章中,作了一个基于“外包给群众(crowd-sourcing)”的不同解决方案的可搜索性能的对比。] 其他基于用户评价的系统包括StumbleUpon, Squidoo, About.com,当然也有Wikipedia。尽管严格来说,它们不是搜索引擎,它们都可以归结于可搜索性的总体框架之内。
当然,Google那功勋卓著的网页排名(PageRank)算法也隐含地根据社会化输入。由于网页排名(PageRank)的一个重要组成部分是基于不同网站的外部链接的数量和特点,那些外部链接担当了收集群体智慧的隐含投票。
9. 人工输入
为了有一个完整的认识,把这一类包括进来。像ChaCha这样的搜索引擎正在试验用人工操作员来回答搜索查询。 值得讨论,Yahoo! Answers是否也是这一领域中的另一种解决方案,尽管这些答案由其他用户,而不是为搜索引擎工作的人来提供。
很难看出ChaCha这类方法怎样扩大规模,除非它设法利用社区资源。
10. 语义搜索
最近搜索领域一些令人激动的新发展与从整个网络中提取智能信息有关。 这些应用刚刚开始,他们表达了语义网络的巨大潜能。这一领域早期的先行者包括:Monitor110,它试图从网络上提取可作为行动参考的金融信息,金融机构投资者们可能对这些信息有兴趣;Spock,“搜人”引擎(现在正处于封闭测试阶段),它计划在启动时数据库中有1亿份档案;Riya,一个视觉搜索引擎,其技术能提供照片的面部和文本识别。
11. 对发现的支持
与个性化和代理技术并肩的是发现技术,这是搜索的圣杯。尽管即时需求的搜索现在是最流行的,但大部分用户在长时间内有相当稳定的兴趣。如果你能发现新的数据源,特别是当优质的feed出现时,岂不是很爽?
在这一方向上已经有了一些试探性的尝试,将搜索与RSS的力量联合起来,比如你已经能建立一个RSS feed来输出许多 Google 和 Yahoo!中的搜索内容。Bloglines已经支持“特荐Feed”的功能--很明显,feed读者很适合在你感兴趣的领域推荐新的博客和feed(基于你的OPML文档的内容)。这一领域中还有Aggregate Knowledge,它通过从多处网站匿名收集信息来为零售和媒体提供专业化服务。总体而言,这将来会是一个令人激动的领域!
结果显示和后处理
这些改进着重于改善结果显示和为查询后提供的“下一步”功能。
12. 分类、标签云和聚类
像Quintura和Clusty这样的搜索引擎根据标签和关键词提供结果的聚类。它不仅让用户看到结果本身,也使结果的聚类及结果之间的关系可视化。这一元信息(meta-information)能帮助用户领会结果并发现相关主题的新信息。
13. 结果可视化
图片比文本结果更容易让人的大脑理解和记忆。在比聚类更普遍的水平上,用专门的图形用户界面来显示搜索结果及结果之间的关系,能传达给用户更多的意义并使用户感觉到“大方向”。在某一特定的上下文中,这一方法效果特别好,比如垂直搜索引擎。 Thinkmap的Visual Thesaurus,Inxight Software的VizServer和房地产搜索引擎Trulia的HeatMaps都是使信息可视化的新方法的例子,尽管在这一领域的研究还处于早期阶段。更简单的一个应用,HousingMaps是一个显示可租/售房屋位置的聚合。
14. 结果提炼与过滤
搜索后下一步经常是通过进一步的对结果的提炼并“深入进”结果里去。这不同于我们在Google已经用到的“关键词修改”,它不仅仅是用关键词组合来试验提交新的查询,而是试图确实地提炼结果[等于是在SQL查询的“where”子句中增加更多的条件],这将使用户收缩其结果并趋近于想要的答案。
查询提炼是搜索处理的重要部分,尽管它还没有引起应有的注意。一个好例子是医疗搜索引擎Healia,它允许用户通过使用人口特质过滤器来改动卫生保健搜索结果。这很重要,因为人口特质,比如年龄、种族和性别可能对症状、疾病和治疗用药的搜索结果有很大的影响;还有基于发现结果的复杂性、来源和类型的过滤器。
Google最近在其结果页面底端引入了一个新按钮:“在结果中搜索”,这是正确的一步;结果还可以通过现有的 OneBox插件和相关的Plusbox新功能来提炼。随着时间的过去,我们可以期待这一功能会日益成熟。
15. 结果输出平台
由于社会化媒体和在线内容变得更加流行,用户数字信息可选择的数量继续增加;相应地,搜索引擎必须支持多种输出平台,包括:网络搜索,移动设备,RIA(丰富互联网应用程序 Rich Internet Applications),RSS,电子邮件等。随着从不同设备接入网络更加普遍,未来的用户很可能会将更加非传统的资源来连接搜索引擎,比如:用TiVo(译者:一种可以录制数字电视节目的系统。)系统来搜索感兴趣的电影或节目,用Nintendo(任天堂)系统搜索在线游戏,甚至用冰箱的触摸屏来搜索菜谱。
现在的一些搜索引擎已经支持标准的网络浏览器和移动设备之外的附加的平台。网络搜索引擎Plazoo提供RSS feed 已经很长时间了;Quintura起初根本就是一个可下载的RIA应用,现在这个搜索引擎刚刚开始提供网络界面。
为许多不同的结果类型提供支持的最简单的方法是提供开放的API,使第三方开发人员能为专业化的目标平台创建定制的用户界面。Alexa网络搜索平台是最先提供开放的API的平台之一(尽管你自己承担使用该API的风险),其他可用的API包括oodle, zillow 和 trulia。
当然,Google也为几种不同的产品提供API,比如Google Base, Google Maps 和 AJAX 搜索API,尽管不是为主搜索引擎提供。手持设备能通过Google Mobile获得支持;Google Base 和 Blogsearch已经提供了RSS输出。
16. 相关服务
严格来讲,这并不是搜索功能本身的一部分。但是,一旦你完成一个查询,经常下一步自然地就是跟随这一搜索的结果。比如,你搜索工作机会以后,你就会想申请你发现的招聘岗位。从最终用户的有用性来看,这是搜索引擎全部功能的内在部分。
令人吃惊的是,这一特征除了显示与上下文相关的广告外,还没有被许多搜索引擎重点开发。这一方法的完美的例子是这个有一个有趣的名字的搜索引擎: the web's too big(互联网太大了),它能使用户搜索英国的公共关系机构的网站上的信息。他们提供一个有趣的附加功能:用户能输入他们的想查询的有关公关的详细情况,点击一下就可以直接提交给多个公关机构。类似地,房地产搜索引擎Zillow提供Zestimate(Zillow计算的房产的估计价值)的概念,以及房产问答的功能。这些类型的附加服务增加了提供给用户的搜索结果的价值,也使这个网站更有“粘性”。
Google在它的一些产品上也提供附加服务,比如在Google Maps上的“寻找商家”,但并不是在它的主搜索引擎上。
17. 搜索代理
搜索代理与持久兴趣的搜索和把搜索结果作为feed输出这两个方向密切相关。设想某个软件有一种定期搜索查询的功能,监控网上感兴趣主题的更新信息,收集并整理结果,移除重复信息并以汇总的形式定期报告给用户。这对某些类型的、重要的但并不立刻需要结果的连续性搜索非常有用:比如,监控感兴趣的招聘、按特定参数设定的在售新房、降到某特定价格的衣服等。
Copernic是这一领域的有趣的服务—Copernic搜索代理能自动运行已存储的搜索,提供新结果的汇总,还能跟踪网页的变化。来自Connotate Technologies的Information Agent Suite挖掘“深层网络”并自动进行变化探测。更多搜索代理的例子,详见读写网(Read/WriteWeb)的一篇文章,介绍了Allth.at及Swamii 和Searchbots.net。
结论
很明显,Google不会坐以待毙的。正像它把个性化搜索引入到它主要的搜索引擎上,当这些其他的方法成功时,Google将继续把这些方法集成到其主搜索引擎上。比如,垂直专业化搜索是Google肯定会用的强大工具。
将来很可能在Google首页上简单的“搜索框”后面会隐藏着多种专业化搜索引擎。另一方面,试图勉强加入这些数量日益增加的复杂特性,将可能使Google或任何其他主流网络搜索引擎的整体结构非常复杂而难以改变,因此如何取舍将是越来越困难的挑战。在Software Abstractions博客的一篇文章中,我们看一看集成了上述大部分功能的主流搜索引擎的概念结构。