2006年低,接到一个朋友的委托,帮忙整理搜索引擎的发展历史,于是春节期间花了点时间整理出来一份粗糙的简史。以为自己研究互联网历史的一点笔记吧。
1、 搜索引擎的发展历史
1) 搜索简史History of Search
缘起“亚奇”
网络搜索引擎的历史可以追溯到1991年。最早的搜索引擎是麦吉尔大学(McGill University)开发的“亚奇”(Archie)。“亚奇”允许对网站上的文件名进行关键词搜索。
1992年“Gopher”(万维网的先驱)的降临带来了“维罗妮卡”(Veronica)搜索引擎的诞生(Poulter,1997),它允许多词检索和布尔检索(就是可以使用and和or等运算符搜索)。尽管有这些早期的进步,1994年才真正算互联网发展的一个分水岭,不仅仅因为在这一年里万维网开始普及,还因为在这一年中出现了两个项目,后来都被当作免费服务对公众开放——它们共同改变了互联网发展的历程。
到1994年,今天互联网流行的两类搜索服务——关键词搜索和主题目录就已出现(Poutler,1997)。第一个成功的全文关键词搜索引擎“网络爬行者”(Webcrawler)那时也诞生了,并且发展成为最成功的早期“网络机器人”(Web Robot)之一(注释2:本质上,网络机器人是一种不断在网络上巡游的程序,它随着连接去寻找网页并自己月度网页。每发现一个页面,就将它复制到数据库中,这样人们利用关键词就能找到它。)。在网上寻找信息方面的技术进展受到了广泛欢迎。布赖恩·平克顿(Brian Pinkerton)的“网络爬行者”很快带动了现在更有名的搜索引擎如Lycos和AltaVista的出现。
1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线,除了网站搜索,它还支持Gopher和Telnet搜索。
雅虎出现
这一年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。Stanford两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。但雅虎的出现使得分类搜索进入搜索引擎的视野,由于搜索效率的明显提高,非常受欢迎。Yahoo此后陆续采用Altavista、Inktomi、Google提供搜索引擎服务,是搜索引擎发展中很多主要技术的跟踪者和推行者,因此其存在对于搜索引擎来说意义非常,由于并非本文的主题,因此不在此赘述。
全文搜索
1994年4月20日,WebCrawler正式亮相。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile。此后全文搜索渐渐成为大多数搜索引擎的功能。
现代意义的搜索引擎
Lycos,号称最早的现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos)是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)
用户界面和附加服务的革新
Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初第一个登台并不总是很重要。Infoseek友善的用户界面、大量附加服务(such as UPS tracking, News, a directory, and the like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。(注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)
差强人意的元搜索引擎
1995年,一种新的搜索引擎形式出现了--元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
自然语法的诞生
AltaVista DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista Public Beta Press Release )。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(搜索引擎9238:比较搞笑,设计altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。
而Altavista的另一些新功能,则永远改变了搜索引擎的定义。AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。
个性化搜索
1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。(Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购)虽然Hotbot并未存在很久,但其“个性化搜索”的概念现今已经是搜索引擎开发商的经典。
Alexa
1996年4月,Alexa出现,这是一个通过安装在客户端的软件来收集客户访问的网页的引擎,根据客户的访问和滞留时间来判断一个网页的价值从而决定其结果中的排列顺序。其Traffic Rank模式一定程度上成为了网站的价值评定依据。这也是对于大量使用cookie来搜集客户资料的方式的一个进步。经过多年的沉淀,Alexa已经一定程度上成为网站好坏的评判标准之一。
搜索引擎的数据库时代
1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。(2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中World Wide Web only,仍可使用Northernlight搜索引擎)它的出现,也预示着的数据库应用已经成为搜索引擎发展潮流的一个必然趋势。
中文搜索引擎的出现
1998年1月,Openfind 创立,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,曾经是最好的中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎。
1998年2月,中国人自己的搜索引擎“搜狐”问世,“出门靠地图,上网找搜狐”开始了中国互联网的门户时代。
2000年,百度中国成立,致力做世界最大的搜索引擎、中国的google。并在纳斯达克顺利上市,创造了中国互联网又一个神话。
不得不提的Google
Google公司把1998年9月27日认作自己的生日。1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。
在2000年中期以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以使用价值不是很高,推广并不快。直到2000年中数据库升级并被Yahoo选作搜索引擎之后,Google才一飞冲天。
2002年12月,Google推出了商品购物搜索引擎Froogle。用户在搜索框中输入想购买的产品名称,Google将返回从各个购物网站/网上商店上抓取的信息,包括产品图片、产品介绍、价格以及对应的网站链接。此外Google还提供了14个大类的产品分类检索,以及限定价格或价格区间等高级搜索功能。
同年6月,Google正式推出了Google Adsense服务,根据网页内容展示相应广告。
2005年——2006年,google通过一连串的举动,向图像搜索、地图搜索、视频搜索等领域均有突破。可以说,一切都可以以搜索为起点。
2007年1月Google称即将推出基于adsense的音乐视频分销服务