搜索引擎的发展史

  如果说有什么发明拯救了互联网?那一定是搜索引擎,否则互联网中的信息越多,它本身崩溃得越快,因为人们找到自己需要的信息也就越难,使用体验也就越差。搜索的早期形态是啥?搜索经历的多少次变革?未来的搜索引擎将变成怎样?不妨总结一下搜索引擎发展的历史,发现其中的脉络。

  其实,搜索的需求——从众多东西(主要是信息)中寻找自己要的,人类一直都有,只不过在IT技术发展之前,所有信息都没有数字化,搜索唯一可行的表现形式是纸质的目录、索引、电话簿。广域网产生以后,搜索的需求存在,但技术没有对应的迅速发展,因此互联网搜索的最早形式是网址簿。具体形式和电话簿、黄页相似,记录很多知名网站网址的一本书,大小视专业程度而定。笔者自己就买过一本普通网民适用的,大小薄厚类似一本新华字典,按网站内容的不同分类。

  纸质的有了,网络版的很快跟上。1994年,杨致远创建雅虎,并开始人工搜集各类网站的网址,并将它们按一定规律分类、排序,网民可以只记住雅虎的网址,之后通过雅虎进入各个门类的网站,纸质的网址簿立即变得多余。部分互联网业内人士将雅虎用人工搜集网址并分类呈现的目录式搜索称为第一代搜索引擎,也有部分互联网专家认为雅虎这类做法并不能严格称为搜索引擎,而应算作最早的网址导航。笔者倾向于将其算作搜索实现形式中的一种,甚至包括网址导航也是如此。

  但雅虎毕竟只是将纸质目录搬到了互联网网页上,肉眼查找和不同人对网站分类的理解都降低了这类搜索的使用效率。于是根据关键词进行自动查找的功能也被应用进搜索引擎,这其实并不难实现,因为根据关键词进行全文检索的技术甚至早在计算机刚刚被发明的上世纪50年代就已经出现(国内的中文全文检索技术最早被作为748工程的一部分,于80年代后期基本完成,但被广泛应用已经是90年代的事了)。

  第一代搜索引擎唯一的问题是,网址仍然由人工收集,效率低、易出错、不全面。于是互联网急需一种替代人工收集网址的技术,而说到替代人工,人们必然会联想到的是机器人,于是第二代搜索引擎所依仗的就是机器人,用程序铸造、组装的游走在互联网中的机器人,现在它被人们熟知的名字是搜索爬虫或者搜索引擎蜘蛛。事实上,这种技术的出现还早于杨致远的雅虎,甚至早于万维网的诞生。

  1990蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System ComputingServices大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。

  现在的主流搜索引擎:谷歌、必应、百度等均采用了搜索爬虫抓取、下载网页,以取代人工,这些搜索爬虫每一定天数(例如谷歌是28天)进行一次全互联网的抓取,将所有网页结果下载至自己的服务器,等待再由人们通过输入关键词提起搜索申请。

  机器人抓取网页的工作效率明显高于人工,再加上用关键词进行检索,新一代搜索引擎的登场时间理应早于目录式搜索和网址导航才对。但问题在于:互联网中的信息实在太多了,搜索爬虫拿回来的网页,人几乎无法再次进行分类,而仅仅经由关键词进行检索,人们依然要从一团乱麻中肉眼查找自己想要的内容,这个使用体验还不如直接使用目录。

  这个问题的解决诞生了现今搜索领域的最强者,也是世界上最伟大的公司之一——谷歌。上世纪90年代后期,就在雅虎取得成功,让人们看到搜索的巨大需求之后,当时在斯坦福大学攻读理工博士的Larry Page 和 Sergey Brin开发出PageRank算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。这项算法基本可以理解为投票,最重要的部分是计算每个网页与其他网页之间链接的多少,链向某个搜索结果的网页越多且权重越高,那么这个搜索结果也就越重要。谷歌用这个办法解决了搜索结果排序的问题,以此取代了目录式的分类,也用搜索爬虫加PageRank的办法取代了雅虎最早提出的搜索引擎解决方案。部分业内人士把谷歌为代表的这一代搜索引擎称为第二代搜索引擎,也有人认为这才是真正意义上的搜索引擎,笔者比较支持前一种说法。

  中国的搜索引擎历史基本是直接从第二代搜索引擎开始的,时间是1999年,百度、中搜等老牌搜索引擎厂商从一开始就采用了搜索爬虫和排序算法的组合(当时还有3721提供网址导航服务,但时间与百度、中搜等几乎重合)。与谷歌、雅虎不同,当时的百度、中搜,都主要为门户网站提供搜索技术的后台服务,而没有自己的呈现网站。直到谷歌和雅虎在本世纪初进入中国,百度、中搜以及后来的搜搜、搜狗和再后来的360才开始有了自己的搜索引擎网站。

  历史似乎到此结束,但以上说到的最晚时间点距现在还有十年之久,搜素引擎在这十年也并非一成不变。

  前面说到的搜索引擎爬虫加排序算法只能解决现在的网页搜索功能,目前世界上所有的搜索爬虫都只能用较长时间(20天以上)实现一次全网抓取,对于更新频率稍慢的网页,这个速度是合理的。但对于更新频率较快的互联网中的新闻,这个方法就显得太过笨重。国内部分业内人士认为随着搜索技术和互联网速度的不断增强,这个问题会自然随之解决,但事实上至今网页搜索仍未能承担搜索新闻的工作,现在人们通过专门的新闻搜索技术查找自己想看的新闻。

  国内最早为门户网站提供新闻搜索技术服务的是中搜,时间是2003年。他们将原来全网抓取网页内容的搜索爬虫限定在少数几百个选定的新闻源网站范围内,这样就将看似无边无际的互联网大大缩小,全部抓取一次的时间从几天变成了几分钟甚至几十秒。而一旦新闻源本身出现变动,只需将其加入或剔除自己选定的新闻源范围即可。这种技术和曾经大热的RSS阅读技术有些类似,但后者因为需要信息的源头符合RSS的格式,所以正在逐渐萎缩,谷歌的RSS阅读产品Greader就在2013年夏天正式停止了服务。此外新闻搜索的排序规则也略有不同,更加注重时间、相关性、发布媒体等等权重。

  与新闻搜索类似的,搜索特殊类别信息的特殊搜索技术还有图片搜索、视频搜索、比价搜索等等。此外,由于互联网中的信息实在过于庞大,通用搜索很难对所有信息都做到专业、精准、及时,因此一些专门针对某个行业或领域的垂直搜索也应运而生。其原理大多是和新闻搜索类似:缩小搜索爬虫活动的范围,再适当修改排序规则。

  中搜对国内乃至整个搜索技术的贡献还在于,第一次尝试了搜索的更高级形式——个人门户,2004年,他们发布个人信息门户浏览器,英文缩写是PIG,因此也被称为网络猪。

  之所以把个人门户称为搜索的更高级形式,是因为此前的搜索引擎都是被动的等着人们主动输入关键词提出搜索申请,而能够让搜索变被动等待为主动提供服务的方式就是个人门户。如果搜索始终等待用户输入关键词,那么它就始终难以摆脱工具的角色,与目录、电话簿之间的区别只在形式和效率之间。此外,主动为用户提供服务还能被更多的关注、使用,获得更多的广告收益。因此主动和被动,不仅仅是一个服务形式的问题。

  门户网站顾名思义,是力求为网民提供最大信息量,解决最多互联网诉求的“超市”,但前面如果加上个人,主要诉求就在全面之外又加上了精准。似乎整个互联网中也只有利用关键词进行检索的搜索能够提供全面且精准的信息服务。中搜的做法是允许用户自己订阅搜索关键词,再自由组合成一张首页,所有订阅关键词的搜索结果都第一时间呈现给刚一打开浏览器的网民。

  在此之后谷歌也推出了自己的个人主页产品——igoogle,并且功能更为丰富(增添了天气、股票等等)。但个人门户产品并没有像传统的搜索引擎那样获得成功,至少在桌面互联网是这样,“网络猪”和igoogle都没有获得搜索厂商们心目中的理想结果,后者还于2013年冬天和Greader一样停止了服务。其他力求主动为网民提供搜索服务的尝试还包括雅虎,他们也允许网民订阅搜索关键词,之后每天会将搜索结果的更新主动发送至用户的邮箱中。

  中国国内对搜索的创新还不得不提百度的竞价排名机制:渴望宣传自身的企业按与自己相关的搜索结果的点击次数付费给搜索引擎厂商,企业的推广信息出现在搜索结果中,由单次点击付费高低决定结果的排序(付费高者靠前)。尽管备受业内指责,但这一机制还是解决了搜索引擎厂商的吃饭问题,因此才能摆脱为其他网站提供后台服务的角色,同时肇始者获得的暴利也吸引了更多玩家跟进投入搜索引擎市场,促进了技术、市场的繁荣。

  但以上尝试都是在第二代搜索引擎的基础上进行的,无论针对类别、展示形式还是盈利模式。这一代搜索引擎虽然用搜索爬虫解决了对搜索结果巨量、全面的需求,但仅用关键词和PageRank一类排序方法是无法实现完全精准的。无论英文还是中文,同一个关键词出现多种含义再平常不过,而再好的排序方式也不可能将每个人真正需要的结果都全部放在前几页,每个人搜索的结果都可能出现在第一百页、一千页甚或一万页之后,因为互联网中的信息实在实在太多了,并且还可能有不断重复的信息出现。

  对下一代搜索引擎的尝试已经开始,2011年国内的搜索引擎厂商中搜发布上线第三代搜索引擎平台,算是第一个打起第三代搜索旗子的。中搜宣称自己是第三代的原因是:区别于第一代纯粹用人工收集搜索结果和完全第二代用搜索爬虫抓取结果,他们的搜索引擎采用人机结合的办法:即用搜索爬虫继续收集网页,解决搜索结果的量的问题,但用人工将搜索结果进行分类、整理,解决搜索结果的准确。前面笔者曾说过这是个不可能完成的任务,中搜给出的解决办法是允许每个网民参与到这个过程中,他们将整个搜索开放,任何人对搜索结果有不同意见,有不同想法都可以提出修改,不同于百度用户只能接受搜索结果。中搜的搜索结果呈现方式也有所改变,成为了针对某个关键词含义的类似门户专题的多框页面(区别于其他搜索引擎的目录式结构),同一关键词的不同含义分别有完全不同的专题页面呈现。

  此后国内一大批“第三代搜索”跟风而至,但无论优劣,其搜索结果的收集、呈现方式并未如同中搜,与现有第二代搜索引擎有任何明显差异,宣称“第三代”未免空穴来风。

  2012年,谷歌也宣布推出知识图谱,与中搜的呈现方式类似,也具有很强的延展性,将与关键词相关的信息展示在边条。2013年初百度也作出了类似调整,但这些都是以技术方式实现的,没有添加人工。谷歌更重要的新一代搜索尝试还包括将搜索迁移进专门的硬件——谷歌眼镜,虽然目前还不能确定其能否获得成功,但指明的方向已经清楚:未来的搜索将和人们的生活离得更近,很可能不局限于文字输入请求和表达结果,也不局限于2维世界。

  不过,对普罗大众而言,眼下更为现实的尝试则是移动搜索的种种创新。还是中搜,将第三代搜索迁移到移动端之外,他们又重新操起个人门户。2013年末,中搜发布中搜搜悦移动个人门户,其中除搜索、新闻等功能,还添加了网址导航、应用商店、第三方评价、生活服务等多个搜索在移动端可能实现的主要功能,和之前的个人门户一样,中搜搜悦也能够接受用户的订阅,并主动呈现搜索结果的更新,更为主动的是它能够用移动互联网的方式推送给用户。

时间: 2024-11-03 22:26:47

搜索引擎的发展史的相关文章

过度追逐搜索引擎的算法导致关键词排名不稳定

一般刚入门的SEOer在学习SEO技术的时候都是按着搜索引擎的算法在做排名的,不过像我们一般人又怎么可能知道那些最机密的搜索引擎排名算法呢?不过还是有些高手可以通过一些数据的观察以及一些网站的变化,可以推断出搜索引擎在哪些地方做出了调整.这部分高手值得尊敬,但不是所有的SEOer可以学习乃至于做到的,其实我们也没有必要去做到这些.因为网站的关键词排名并不仅仅只局限于搜索引擎的基本算法. 据谷歌方面的消息,谷歌作为世界上最优秀的搜索引擎,每年对算法的改进多达500次.平均下来那就是每天都会修改1.

第二课笔记:搜索引擎基础知识和工作原理

  大家好,我是专门从事SEO的,几个月来一直都在维护和优化按摩器排行榜www.yziyuan.com这个网站,并从中总结了很多的经验和知识.今天要分享的是<搜索引擎基础知识和工作原理>,这是最基本的概念吧, 第一部分:什么是搜索引擎? 1,定义? 官方定义: 搜索引擎是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.百度和谷歌等是搜索引擎的代表. 我的理解是: 按照搜索引擎的搜索规则去设置目标网站的

关于搜索引擎的基础知识和工作原理

摘要: 大家好,我是专门从事SEO的,几个月来一直都在维护和优化按摩器排行榜www.yziyuan.com这个网站,并从中总结了很多的经验和知识.今天要分享的是<搜索引擎基础知识和工作原理>,这 大家好,我是专门从事SEO的,几个月来一直都在维护和优化按摩器排行榜www.yziyuan.com这个网站,并从中总结了很多的经验和知识.今天要分享的是<搜索引擎基础知识和工作原理>,这是最基本的概念吧, 第一部分:什么是搜索引擎? 1,定义? 官方定义: 搜索引擎是指根据一定的策略.运用

网站为什么被搜索引擎删除

中介交易 SEO诊断 淘宝客 云主机 技术大厅 网站为什么会被百度等搜索引擎删除呢?根据个人的体会,搜索引擎通常不会轻易删除一个网站,一定是网站自己存在某些问题.如果站在搜索引擎服务商的角度来考虑,也许就不难理解为什么那么多网站被搜索引擎删除了.对于网站已经被搜索引擎删除者,我的建议是先对自己的网站问题进行必要的分析,而对于更多目前在搜索引擎中正常的网站,也有必要从被删除网站的不幸命运中受到警示. ??2006年3月初,世纪辰光商务网总裁赵旭先生在营销人博客发文"关于站点在百度搜索结果中的问题探

电子商务网站如何运用SEO技术和策略

现在SEO技术是互联网推广和营销的主要工具之一.同SEM比起来,SEO技术更普通.实用且较容易掌握.怎样针对自己的目标用户市场,适当的运用SEO技术使企业的关键词(主要关键词及长尾关键词)在各大搜索引擎中获得好的排名,是使企业或项目获得成功的渠道之一. 在此篇文章中,我们抛砖引玉,简要的介绍一下时时价比价网所使用的SEO技术及策略,希望同行之间可以共同探讨. 在SEO界"内容为皇 外链为王",这个说法是经久不衰的内容,已经是业内大多数的认知之一.在某种角度来说,"内容为皇&q

删一篇新闻1万块 百度公司陷入空前信任危机

中介交易 SEO诊断淘宝客 站长团购 云主机 技术大厅 1篇新闻1万块 百度陷入空前信任危机 官场上,绝对的权力会导致绝对的腐败;在搜索服务市场中,利益的参与也必然会导致诚信和公益的流失.因此,一向标榜搜索结果客观公正的搜索引擎,一向声称"从不作恶"的搜索引擎,在不正当利益面前才会变得如此不堪一击. "三鹿奶粉"事件的爆发,不但牵扯出搜索引擎行业里灰金交易的肮脏一幕,更向外界发出了一个可怕的信号:占据垄断地位的搜索引擎正在严重侵扰信息甄选机制的独立性和公正性,人工干

网站优化友情连接几个误区

一.导入链接越多越好 这句话听起来很合理.越多的链接导入,新用户会有更大的机会发现你的网站,这难道不对吗? 但如果人们根本不看这些链接,就跟这些链接压根不存在一样,那么,这样的导入链接不值得我们付出一丝一毫的努力.链接建设战略,并不是得到的尽可能多的导入链接,而是将你所有的资源都用于得到高质量的链接,这些链接最好能够为网站带来流量. 二.欺骗搜索引擎是件容易的事情 很多人将大量的精力浪费在企图欺骗搜索引擎上.种种欺骗行为可能一时取得了成功,但搜索引擎会对可疑做法保持着持续的警惕,到一定时候会采取

Takee钛客手机完全百科手册:从配置测评定价订购方法到十大全息互联网技术应用

非常高兴终于成功预订了这款神器,按捺不住来一篇小百科,跟朋友们分享下几天来的全情参与.订购过程.评测体验和研究心得. 全息技术是利用干涉和衍射原理记录并再现物体真实的三维图像的记录和再现的技术,可以实现裸眼3D 360度无死角的成像效果.目前我们接触到最多的均是概念宣传视频,震撼而酷炫. Takee钛客全息手机真机测评实拍 Takee钛客全息手机真机测评实拍 当苹果.三星等手机巨头比拼更加智能化,采用蓝宝石让手机更加漂亮.耐磨的时候:当小米和锤子在比拼谁将互联网思维运用得更纯属谁将粉丝经济效益发

IT时代周刊:百度搜索公正性彻底调查

中介交易 SEO诊断 淘宝客 云主机 技术大厅 官场上,绝对的权力会导致绝对的腐败;在搜索服务市场中,利益的参与也必然会导致诚信和公益的流失.因此,一向标榜搜索结果客观公正的搜索引擎,一向声称"从不作恶"的搜索引擎,在不正当利益面前才会变得如此不堪一击."三鹿奶粉"事件的爆发,不但牵扯出搜索引擎行业里灰金交易的肮脏一幕,更向外界发出了一个可怕的信号:占据垄断地位的搜索引擎正在严重侵扰信息甄选机制的独立性和公正性,人工干预已沦为搜索领域的潜规则,其独立性和公正性在商业