第三代搜索引擎技术与P2P-搜索引擎技术

  第二代 搜索引擎虽然比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索。然而,随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。IDC在2001年下半年公布的一份报告表明,前期被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。
  一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。
  如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。比如在某搜索引擎中查询“旅游”这个词,返回的信息超过一百万条,假定一个人3秒钟查看一个网页,就算只查看其中10%的网页,一刻不停地看下去也需要十多个小时。
  好在搜索引擎技术发展迅速,诸如智能化、个性化特色的新型引擎与过去的搜索引擎相比有了很大的区别。智能搜索可以通过对搜索内容相关性的自动学习,来提高搜索结果的准确度。不过,现在还没有一种可行的方式真正实现智能化,很难将所需信息一定显示在前两三页的搜索结果之中。
  另一个颇受瞩目的搜索技术就是将P2P技术应用到网页的检索中。通过共享所有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过Web服务器,不受信息文档格式的限制,即可达到传统目录式搜索引擎无可比拟的深度(传统引擎只能达到20%~30%的网络资源)。美国一家新兴搜索引擎设计公司i5 Digital在两年前已正式推出了依据对等搜索理念的商业性搜索引擎Pandango(www.pandango.com),但至今仍未进入主流搜索引擎阵容的事实,则说明P2P搜索目前也只能称为是未来的技术。
  “P2P搜索这个理念我最早是1997年底在Infoseek听到的,当时的Infoseek里已经有人提出并开始考虑这种搜索技术了”,李彦宏表示,“各个网站上都有一个自己的小的搜索引擎,大家相互之间可以进行沟通,如果这个引擎查不到,可以通过其他的引擎查,就是这样的一个概念。但是到目前为止,它离实际的应用还差得非常远,主要是违反了关键性指标中有关速度的问题。由于有很多这种小的相互独立又相互链接的引擎,其速度与集中式管理的搜索引擎相比肯定会差很多”。

时间: 2024-10-24 17:06:43

第三代搜索引擎技术与P2P-搜索引擎技术的相关文章

1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门

 一: 1  搜索引擎的历史 萌芽:Archie.Gopher Archie:搜索FTP服务器上的文件 Gopher:索引网页   2  起步:Robot(网络机器人)的出现与spider(网络爬虫) Robot基于网络的,可以执行特定任务的程序 Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自动下载程序   3   发展阶段:excite,galaxy,yahoo这些公司做搜索   4   繁荣:infoseek,AltaVista,Google和

关于搜索引擎的技术和理念-搜索引擎技术

本文先引用几句话:1."确解用户之意,切返用户之需."2."门户网站都想着是怎样省钱,而不是怎样花钱来买技术."3."搜索引擎不是人人都能做的领域,进入的门槛比较高."4."只是优秀还不够,最好的方式是将一件事情做到极致."(google十大真理)5."做搜索引擎需要专注" "对于一项排到第四的业务,门户很难做到专注."6."用户无法描述道他要找什么,除非让他看到想找的东西.&

搜索引擎技术及趋势-搜索引擎技术

随着因特网的迅猛发展.WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务).目前,搜索引擎技术正成为计算机工业界和学术界争相研究.开发的对象. 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术.据发表在<科学>杂志1999年7月的文章<WEB信息的可访问性>估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长.用户要在如此浩瀚的信

齐宁:搜索引擎知识-网页查重技术

对于搜索引擎来说,重复的http://www.aliyun.com/zixun/aggregation/18427.html">网页内容是非常有害的.重复网页的存在意味着这些网页就要被搜索引擎多处理一次.更有害的是搜索引擎的索引制作中可能会在索引库里索引两份相同的网页.当有人查询时,在搜索结果中就会出现重复的网页链接.所以无论是从搜索体验还是系统效率检索质量来说这些重负网页都是有害处的. 网页查重技术起源于复制检测技术,即判断一个文件内容是否存在抄袭.复制另外一个或多个文件的技术. 199

带宽-想建一个互动视频直播网站,能用P2P流媒体技术吗?

问题描述 想建一个互动视频直播网站,能用P2P流媒体技术吗? 想建一个网站,只有一个主播间,同时在线人数最高时20万人,其他小直播间多个,每个同时在线人数均控制在1000人以内,能否用P2P技术?带宽费用要多少一个月? 解决方案 求大神帮忙测算下啦!本人0技术,但有一个很好的商业构想,要建网站,但前提是要测算资金量

防火墙技术详细说明及技术发展趋势

传统的防火墙通常是基于访问控制列表(ACL)进行包过滤的,位于在内部专用网的入口处,所以也俗称"边界防火墙".除了访问控制功能外,现在大多数的防火墙制造商在自己的设备上还集成了其它的安全技术,如NAT和VPN.病毒防护等. 一.防火墙技术发展概述 传统的防火墙通常是基于访问控制列表(ACL)进行包过滤的,位于在内部专用网的入口处,所以也俗称"边界防火墙".随着防火墙技术的发展,防火墙技术也得到了发展,出现了一些新的防火墙技术,如电路级网关技术.应用网关技术和动态包过

78期:ATF走进清华,阿里技术天团畅谈技术梦想

云周刊 本周要点 查看更多 ATF走进清华,阿里技术天团畅谈技术梦想 2016 ATF阿里技术论坛于4月15日在清华大学举办.阿里巴巴集团技术委员会主席王坚,阿里巴巴集团首席技术官(CTO)张建锋,阿里巴巴集团首席风险官(CRO)刘振飞,蚂蚁金服首席技术官(CTO)程立以及来自阿里巴巴集团各部门多位技术大咖齐聚一堂,与莘莘学子分享阿里的技术梦想,阅读详情. [活动实录]2016 阿里技术论坛(Alibaba Technology Forum) [直播回顾]<阿里云RDS MySQL分支深度定制实

ATF走进清华,阿里技术天团畅谈技术梦想

"阿里上个财年中国电商平台零售额突破3万亿元人民币并超过沃尔玛,这意味着一家中国互联网企业超越了一家代表工业时代最高成就的美国企业."4月15日在北京清华大学,阿里巴巴技术委员会主席王坚在出席ATF面对1500名在场学生时说,"时代给了我们巨大的机会,让技术可以为全人类服务."  ATF(Alibaba Technology Forum)系阿里巴巴技术论坛,是阿里每年面向高校学生最重要的技术盛会,此前曾在斯坦福大学.香港科技大学.北京大学.北京邮电大学等知名学府举办

飞天技术汇 - 阿里云技术大牛为您揭秘双11幕后的技术保障

飞天技术汇 - 阿里云技术大牛为您揭秘双11幕后的技术保障 年年"双11"买买买,但是您了解双11幕后的技术故事吗?数以亿计的峰值检索请求,高并发的购买订单管理,花样繁多的红包和折扣信息比对,海量的库存和物流信息处理,这一切的背后都有阿里云的影子.11月18日,我们为您邀请到了阿里巴巴双11项目阿里云核心技术团队的弹性计算高级技术专家祝犁.存储高级开发工程师姜琦和数据库高级开发工程师凌洛,在北京望京阿里中心为您详细解读阿里云如何为阿里巴巴双11全球购物狂欢节提供技术支撑和保障服务. 时

谈谈微软技术,以及对待技术应有的态度

昨晚在家上网,看看微软研究院TechFest 2010的消息,逛逛Channel 9,瞅瞅DevLabs里的项目,以及F#与Reactive Framework之类东西.然而,我一边对那些有趣而奇妙的技术感叹不已,同时却又产生出一种忿忿之情.为什么?因为在国内的技术圈子里,经常有一种在我看来莫名奇妙的鄙视微软技术的风气.这样的风气在国内的推特圈里也非常明显,基本上只有我一个人对微软的技术抱有好感,并"勇于"和大量意见向左的人争辩.忿忿之余,我便在推特上不断表达我对这种风气的抱怨及否定,