搜索引擎技术深度研究

  随着网络科学技术的高速发展,人们对网络搜索引擎的依赖越来越强,尤其是在当今网络资源丰富,网络信息需求量日益上升的二十一世纪,搜索技术占据了互联网的一个非常重要的制高点。现在人们经常用搜索引擎来搜索多媒体资料、最新资讯和地图等各种资料。

  第一、 搜索引擎的基本原理

  搜索引擎是一个能够获得网站网页资料,建立数据库并提供查询的系统。

  1.1搜索引擎的结构

  网页搜集就是通过网络蜘蛛去网页上爬行,并且沿着每个网页中的链接去爬行其他网页,最终可以爬行到很多网页,并将这些网页压缩处理,存储到知识库当中。网络蜘蛛程序会不断的对整个网络进行爬行,以保证信息的及时性和有效性。

  预处理是对搜集到的网页进行链接分析,网页重要程度计算以及关键字提取,建立一个索引数据库,这个数据库的体系结构必须利于搜索,而且包含的信息要尽量全面。

  服务指的是为用户提供服务,当用户输入关键字后,按照关键字在索引数据库中快速的找到相关的信息,返回给用户。

  1.2搜索引擎的分类

  搜索引擎可以分为三类:全文检索搜索引擎、目录搜索引擎、元搜索引擎。

  全文搜索引擎是通过网络蜘蛛去爬行各个网页,将其信息提取出来并存入一个数据库中,当用户使用时对用户输入的关键字进行匹配,并将信息返回给用户。这是使用最多的一种搜索引擎,google,baidu就属于这种类型。

  目录搜索引擎是将搜索的资源按照一定的方式进行分类,最终建成一个很大的目录系统,用户查询时可以逐层打开浏览目录,最终找到想要的信息,目录搜索引擎严格上来说并不是一个真正的搜索引擎。我们使用的yahoo,新浪就是属于这种。

  元搜索引擎是一种调用其他搜索引擎的引擎,它可以涵盖更多的资源,提供比较全面的服务。使用比较多的有Dogpile,Vivisimo以及国内的搜星。

  上述三种不同的搜索引擎分别可以用于不同的场合,有着自己的优缺点。全文搜索引擎一般用于综合性的搜索,它的优点是信息量大,更新及时,不需要人工干预,缺点是处理的信息量大,信息筛选困难。目录搜索引擎大多是面向网站,提供目录浏览服务和直接检索服务,它的优点是人工的干预有利于提高信息搜索的准确度,缺点是需要人工介入,维护成本高,更新慢,信息量小。元搜索引擎由于可以查询多个其他的搜索引擎,所以特别适合于要求查全率高的场合,但是目前不同的搜索引擎之间,建立索引数据库和执行提问检索的具体方法或规则并不相同,大大影响了元搜索工具的检索效果。

  第二、搜索引擎实现的几个关键技术

  2.1 网络蜘蛛

  网络蜘蛛的可以采用一下几种方式实现:

  (1) 基于广度优先。基于广度优先的算法按照所遇到的链接的先后顺序进行访问。它是所有网络蜘蛛中是最简单的一种策略。

  (2) 基于深度优先。基于深度优先的思想根据选定的条件计算网页与搜索主题之间的相似度,选择相似度最高的链接进行搜索,在相似度的计算过程中,通常采用余弦进行计算。

  (3) 基于网页评级。基于网页评级是利用网页评级并结合内容对搜索到的文档集合进行评级,利用计算得到的结果从中挑选评级最高的链接作为下一个搜索的对象。

  (4) InfoSpider。InfoSpider是利用进化的关键词表和神经网络方法,对与主题相关的网页进行相似度的计算,根据计算的结果决定下一个将要搜索的对象,同时计算新获得的文档与主题的相关程度以及在获取文档过程中所花费的代价修正代理的能量,并根据其能量级别决定对该代理进行撤消、再生与生存。

  2.2网页重要性的评判

  对网页重要性的评判方法主要有两种,一种是基于链接的

  方式,另一种是基于相似度的方法。

  基于链接方式的计算的依据链接信息与被链接的对象必然存在某种可信的映射关系。在应用过程中经常用到以下内容:

  (1) 入度:包含有链接目标指向本网页的网页数量;

  (2) 出度:由该网页链接出去的网页链接数量;

  (3) 网页评级(Page Rank):指在任意时刻用户访问该网页的可能性。

  这种方法得到广泛的应用,并且十分有效。

  基于相似度的计算,一般都利用向量空间模型将查询串与文本转化为向量,然后评估文本与查询串之间的相似度。

  2.3搜索引擎硬件系统的建立

  搜索引擎的硬件系统是整个系统的支柱,为了提供更快的查询速度,硬件系统一般采用分布式的结构,Google的服务器就分布在全球各地,还采用并行技术,加快执行速率。另外,索引数据库的硬件设计也很重要,对于提高数据访问速度非常关键。

  第三、搜索引擎反展趋势

  未来的搜索引擎有着一下的特点:

  (1) 能够收集到互联网上几乎所有的信息;

  (2) 可以屏蔽一些非法的信息;

  (3) 查全率和查准率的提高

  (4) 不仅能够识别文本检索词,还能构识别图像、音频、视频等等;

  (5) 信息更新更快;

  (6) 跨库查询方便简介;

  (7) 交互界面人性化、个性化;

  (8) 可以实现智能搜索。

  (9) 移动搜索将会取得长足的发展。

  第四、总 结

  本文对搜索引擎进行了详细的讲解,对他的关键技术的实现进行了分析,并且提出了以后的发展趋势,随着技术的发展,人们需求的提高,搜索引擎将会别的越来越智能,越来越高效实用。

时间: 2024-09-20 05:53:48

搜索引擎技术深度研究的相关文章

搜索引擎技术及趋势

中介交易 SEO诊断 淘宝客 云主机 技术大厅 李晓明:1982年毕业于哈尔滨工业大学,1986年毕业于美国史蒂文斯理工学院计算机系,获博士学位.现任北京大学计算机科学技术系教授,博士生导师,系主任. 研究方向为计算机并行与分布处理. 刘建国:北京大学计算机系副教授. 随着因特网的迅猛发展.WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务).目前,搜索引擎技术正成为计算机工业界和学术界争相研究.开发的对象. 搜索引擎(S

中文搜索引擎技术揭密:中文分词-搜索引擎技术

信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google.百度.中国搜索等大型搜索引擎一直是人们讨论的话题.随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索.8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点. 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista.overture.google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上

最有前途的软件开发技术——搜索引擎技术

搜索技术发展及未来趋势 搜索技术仍不能满足需求 Internet的迅速发展和广泛应用导致了网上信息爆炸性地增长.据权威机构统计,网上约有数十亿的网页,甚至有些专家宣称网页总数已达5500亿,这一数字仍然在不断地快速增长.因此,如何在庞大的Internet上获得有价值的信息已成为网民日益关注的问题.搜索技术的出现为网民从Internet上快速找到所需信息带来了福音.搜索引擎是一种用于帮助Internet用户查询信息的搜索工具,它以一定的策略在Internet中搜集.发现信息,对信息进行理解.提取.

第三代搜索引擎技术与P2P

中介交易 SEO诊断 淘宝客 云主机 技术大厅 第二代 搜索引擎虽然比第一代在搜索速度.针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索.然而,随着Internet的强势发展,网上庞大的数字化信息和人们 获取所需信息能力之间的矛盾日益突出.IDC在2001年下半年公布的一份报告表明, 前期被大肆宣传为"使用简便易用,搜索结果 丰富"的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频.音频等多

搜索引擎排名算法新趋势-搜索引擎技术

     众所周知,GOOGLE的PageRank集页面关键词关联度(TITLE, HEADING, DESCRIPTION, ANCHOR TEXT, ALT TAG, CONTENT, KEYWORD DENSITY/PLACEMENTS, PAGESIZE)和链接普遍度LINK POPULARITY(INCOMING LINKS,OUTBOUND LINKS,INSITE CROSS LINKS)为一体的综合性排名算法,也是目前最先进的处于商业化应用的运算法则. 道高一尺,魔高一丈,围绕着

搜索引擎的技术和发展趋势会怎样变化?-搜索引擎技术

     随着因特网的迅猛发展.WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务).目前,搜索引擎技术正成为计算机工业界和学术界争相研究.开发的对象.     搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术.据发表在<科学>杂志1999年7月的文章<WEB信息的可访问性>估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长.用

第三代google排名搜索引擎技术出台

     seo于日前发布了对google第三代搜索引擎与p2p搜索引擎的分析比对.seo分析后认为p2p搜索引擎目前难以撼动传统搜索引擎的优势地位,只能称为未来技术.但seo认为,无论是传统的搜索引擎还是p2p搜索引擎必须是一种智能化的,能够理解世界上所有事务的高新技术.       seo分析称,第二代 google排名搜索引擎虽然比第一代在搜索速度.针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索.然而,随着Internet的强势发展,网上庞大的数字化信息和人

第三代google排名搜索引擎技术与P2P

第二代 google排名搜索引擎虽然比第一代在搜索速度.针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索.然而,随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出.IDC在2001年下半年公布的一份报告表明,前期被大肆宣传为"使用简便易用,搜索结果丰富"的google排名搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频.音频等多媒体信息的检索,现在仍

未来搜索市场王者——个性搜索的技术与市场-搜索引擎技术

2003年2月,Google 收购了全球最大的Blog 服务之一Blogger.com 的提供商Pyra Labs:2003年9月,Google收购了一家制作个性化和上下文关联搜索工具的新兴企业Kaltix:2003年10月,Google收购在线广告网络公司Sprinks:2004年7月,Google宣布收购加州的Picasa数字相片管理厂商:2004年10月,Google收购了总部位于加州的数字地图服务商Keyhole:2004年12月,Google宣布同世界领先的研究图书馆及牛津大学达成协议