第三代搜索引擎技术与P2P

 第二代 搜索引擎虽然比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索。然而,随着Internet的强势发展,网上庞大的数字化信息和人们
获取所需信息能力之间的矛盾日益突出。IDC在2001年下半年公布的一份报告表明,
前期被大肆宣传为“使用简便易用,搜索结果
丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。

  一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。

  如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库
大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公
认为是下一代搜索技术的竞争要点。比如在某搜索引擎中查询“旅游”这个词,返回的信息超过一百万条,假定一个人3秒钟查看一个网页,就算只查看其中10%的网页,一刻不停地看下去也需要十多个小时。

  好在搜索引擎技术发展迅速,诸如智能化、个性化特色的新型引擎与过去的搜索引擎相比有了很大的区别。智能搜索可以通过对搜索内容相关性的自动学习,来提高搜索结果的准确度。
不过,现在还没有一种可行的方式真正实现智能化,很难将所需信息一定显示在前两三页的搜索结果之中。

  另一个颇受瞩目的搜索技术就是将P2P技术应用到网页的检索中。通过共享所有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过Web服务器,不受信息文档格式的限制,即可达到传统目录式搜索引擎无可比拟的深度(传统引擎只能达到20%~30%的网络资源)。美国一家新兴搜索引擎设计公司i5 Digital在两年前已正式推出了依据对等搜索理念的商业性搜索引擎Pandango(www.pandango.com),但至今仍未进入主流搜索引擎阵容的事实,则说明P2P搜索目前也只能称为是未来的技术。

  “P2P搜索这个理念我最早是1997年底在Infoseek听到的,当时的Infoseek里已经有人提出并开始考虑这种搜索技术了”,李彦宏表示,“各个网站上都有一个自己的小的搜索引擎,大家相互之间可以进行沟通,如果这个引擎查不到,可以通过其他的引擎查,就是这样的一个概念。
但是到目前为止,它离实际的应用还差得非常远,主要是违反了关键性指标中有关速度的问题。由于有很多这种小的相互独立又相互链接的引擎,其速度与集中式管理的搜索引擎相比
肯定会差很多”。

  商业应用与学术研究之间总会存在一定的距离,但这并不是表示商业界不重视对技术的追求,尤其是像Google这些已经处于该领域金字塔塔尖的公司。Google拥有一个开放性数据库,内含一百多个未来需要实施的项目,这些项目由五十位计算机科学博士负责推进。2002年6月,Google专门成立了“实验室”,以展示他们在互联网搜索领域里最新研究的技术,并发布在互联网(labs.Google.com)上供公众试用,广泛收集用户的反馈意见。实验室里已经展示的项目,包括键盘检索、语音检索等等。

  或许有些人会认为,这些
所谓的实验项目似乎看不出搜索引擎技术将在观念上进行大的
转变,实际上,搜索引擎技术在8年多的时间里一直是以一个渐变的过程在发展。“一个搜索引擎并不是说某一方面好就能受大众喜欢,必须方方面面做到了才行”,李彦宏这么认为,“现在搜索还不能完全满足人们的需求,因为需求太多样化,很难一一满足”。这也是主流搜索引擎目前更重视在细节上下功夫的原因。

  无论如何,包括Google的佩杰在内的搜索技术领域的领先者都认为,最终的搜索引擎将是智能化的,能够理解世界上的所有事物。佩杰还是Web服务技术领域积极的参与者,他正在尝试将Web服务技术应用到搜索当中,以解决跨平台、多格式的信息检索。而我们现在所见到的,主流搜索技术把注意力集中在提升自身搜索引擎质量、扩展应用范围,比如支持图片检索、PDA等移动手持设备的检索,这些都将成为下一代技术实现过程中必不可少的步骤。

时间: 2024-08-03 18:42:05

第三代搜索引擎技术与P2P的相关文章

第三代google排名搜索引擎技术与P2P

第二代 google排名搜索引擎虽然比第一代在搜索速度.针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索.然而,随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出.IDC在2001年下半年公布的一份报告表明,前期被大肆宣传为"使用简便易用,搜索结果丰富"的google排名搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频.音频等多媒体信息的检索,现在仍

第三代搜索引擎技术与P2P-搜索引擎技术

第二代 搜索引擎虽然比第一代在搜索速度.针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索.然而,随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出.IDC在2001年下半年公布的一份报告表明,前期被大肆宣传为"使用简便易用,搜索结果丰富"的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频.音频等多媒体信息的检索,现在仍然是无法突破的难题. 一般的公共

第三代google排名搜索引擎技术出台

     seo于日前发布了对google第三代搜索引擎与p2p搜索引擎的分析比对.seo分析后认为p2p搜索引擎目前难以撼动传统搜索引擎的优势地位,只能称为未来技术.但seo认为,无论是传统的搜索引擎还是p2p搜索引擎必须是一种智能化的,能够理解世界上所有事务的高新技术.       seo分析称,第二代 google排名搜索引擎虽然比第一代在搜索速度.针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索.然而,随着Internet的强势发展,网上庞大的数字化信息和人

最有前途的软件开发技术——搜索引擎技术

搜索技术发展及未来趋势 搜索技术仍不能满足需求 Internet的迅速发展和广泛应用导致了网上信息爆炸性地增长.据权威机构统计,网上约有数十亿的网页,甚至有些专家宣称网页总数已达5500亿,这一数字仍然在不断地快速增长.因此,如何在庞大的Internet上获得有价值的信息已成为网民日益关注的问题.搜索技术的出现为网民从Internet上快速找到所需信息带来了福音.搜索引擎是一种用于帮助Internet用户查询信息的搜索工具,它以一定的策略在Internet中搜集.发现信息,对信息进行理解.提取.

搜狐今日推第三代搜索引擎 高调入市亮杀手锏

中介交易 SEO诊断 淘宝客 云主机 技术大厅 早在今年年初,搜狐宣布将在7月推出完全自主技术开发的搜索引擎,然而时至今日,一向善于市场宣传的搜狐关于新产品的发布却一直悄无声息,发布时间也从原定的7月份推到了8月初.为此,记者采访了搜狐公司董事局主席兼首席执行官张朝阳,他兴奋地向记者透露:"对,就在下周,我们自主研发的第三代搜索引擎将正式推出,通过一种逻辑判断的新算法实现技术突破, 将直接导致国内搜索引擎市场的重新洗牌!"王者归来的豪言和气势,无疑给当下高热不退的中国网络搜索行业投下了

lucene-实现网络爬虫与搜索引擎技术都需要配备什么样的资源?

问题描述 实现网络爬虫与搜索引擎技术都需要配备什么样的资源? 公司准备做一个关于搜索引擎方面的东西,但是本人对这块不是熟悉,都需要配备什么样的资源,比如人才,软件(开源或商业的,开源优先),硬件,网络等,请大家不吝赐教. 大致的要求是能有一个爬虫去一些网站爬数据抓取回来,然后存储在本地.在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理,方便用户使用.我们只是要求搜索某一行业的数据,而不是像百度这样可以搜索全网的数据.

搜索引擎技术及趋势

中介交易 SEO诊断 淘宝客 云主机 技术大厅 李晓明:1982年毕业于哈尔滨工业大学,1986年毕业于美国史蒂文斯理工学院计算机系,获博士学位.现任北京大学计算机科学技术系教授,博士生导师,系主任. 研究方向为计算机并行与分布处理. 刘建国:北京大学计算机系副教授. 随着因特网的迅猛发展.WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务).目前,搜索引擎技术正成为计算机工业界和学术界争相研究.开发的对象. 搜索引擎(S

中文搜索引擎的十大误区-搜索引擎技术

误区1.网站目录就是 搜索引擎 网站目录通常是经过人工分类的有系统的网站列表,通常附带有搜索功能.网站目录就是搜索引擎的名词始于雅虎,雅虎初创时就是只有一个网站目录.当然很快就通过外包的形式增加了网页级的搜索.中文网站提供目录搜索的远多于提供网页搜索的,加之媒体的各种炒作,许多网民误以为网站目录的搜索功能就是搜索引擎. 在美国,因特网搜索引擎通常指的是收集了因特网上几千万到几亿个网页并对网页中的每一个词进行索引的搜索服务系统,是基于网页的全文检索系统.误区2.搜索引擎就是门户站点 如果你要提供搜

搜索引擎的价值来源-搜索引擎技术

电子邮件和搜索引擎长期以来一直是两项最受欢迎.最热门的互联网业务.CNNIC截止2003年6月底的统计表明,互联网用户使用电子邮件和搜索引擎的比率分别为91.8%和70.0%,在近30种网络服务中高居前两位.用户对搜索引擎的满意度也很高,其中,对搜索引擎服务表示非常满意和比较满意的分别为23.4%和50.3%(居各项服务之首),表示不太满意和很不满意的仅为3.9%和0.9%(居各项服务之末).搜索引擎在互联网世界的重要地位由来已久.当年,Yahoo作为门户网站奇迹般崛起所仰仗的正是搜索引擎.在日