搜索引擎排名三大定律1-搜索引擎技术

搜索引擎技术及趋势
[出自搜索引擎直通车]
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。
 搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。
 
一、分类
 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
 
 2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。
 
 3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等
二、性能指标
  我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度(Pricision)衡量一个搜索引擎的性能。

时间: 2024-08-03 20:01:32

搜索引擎排名三大定律1-搜索引擎技术的相关文章

了解搜索引擎排名三大定律

摘要: 搜索引擎排名三大定律,即搜索引擎自信心定律,搜索引擎相关性定律,搜索引擎人气质量定律.(以下内容针对百度而言) 1.搜索引擎自信心定律:主要是针对百度竞价用户而言, 搜索引擎排名三大定律,即搜索引擎自信心定律,搜索引擎相关性定律,搜索引擎人气质量定律.(以下内容针对百度而言) 1.搜索引擎自信心定律:主要是针对百度竞价用户而言,假如竞价用户对自己的网站有信心,认为网站足够好,认为网站在百度推广投资后,可以获得高额的收入,自然愿意在百度推广中多投钱.当然,百度推广投资越多,排名就越靠前.

搜索引擎排名三大定律2-搜索引擎技术

召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率:精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率.对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低.所以常常用11种召回率下11种精度的平均值(即11点平均精度)来衡量一个检索系统的精度.对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算.目前的搜索引擎系统都非常关心精度. 影响一

搜索引擎排名三大定律3-搜索引擎技术

索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档.索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity). 索引器可以使用集中式索引算法或分布式索引算法.当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度.索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响.一个搜索引擎的有效性在很大程度上取决于索引的质量 3.检索器 检索器的功能是根据

纠正搜索引擎排名三大认识误区

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   互联网发展早期,以雅虎为代表的网站分类目录查询非常流行.网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下.用户查询时,通过一层层的点击来查找自己想找的网站.也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎. 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念.搜索引擎的

搜索引擎排名算法新趋势-搜索引擎技术

     众所周知,GOOGLE的PageRank集页面关键词关联度(TITLE, HEADING, DESCRIPTION, ANCHOR TEXT, ALT TAG, CONTENT, KEYWORD DENSITY/PLACEMENTS, PAGESIZE)和链接普遍度LINK POPULARITY(INCOMING LINKS,OUTBOUND LINKS,INSITE CROSS LINKS)为一体的综合性排名算法,也是目前最先进的处于商业化应用的运算法则. 道高一尺,魔高一丈,围绕着

新手必看:搜索引擎三大定律

搜索引擎排名三大定律,即搜索引擎自信心定律,搜索引擎相关性定律,搜索引擎人气质量定律.(以下内容针对百度而言) 1.搜索引擎自信心定律:主要是针对百度竞价用户而言,假如竞价用户对自己的网站有信心,认为网站足够好,认为网站在百度推广投资后,可以获得高额的收入,自然愿意在百度推广中多投钱.当然,百度推广投资越多,排名就越靠前. 2.搜索引擎相关性定律:网站相关性,即网站关键词的词频,也被称为网站关键词的密度.大家都明白,网站相关性越高,越能符合搜索引擎者的需求,当然排名也会越靠前,因此出现了网站大量

搜索引擎排名算法规则:图片ALT属性文本不再有效-搜索引擎技术

搜索引擎排名算法规则:图片ALT属性文本不再有效       在网页设计中,图片的属性ALT标签用于对图片进行命名等描述说明.ALT标签众多关键词信息在搜索引擎优化中曾发挥了一定作用,常被用于增加网页关键词密度,因此在ALT中合理添加与主题有关的关键词属于搜索引擎优化中考虑的一个因素.不过,最近美国SEO研究网站WebMarketingNow和Search Engine Academy根据长期测试研究认为,目前,三大主流搜索引擎Google, Yahoo!和MSN的搜索引擎排名算法规则中不再将图

探密影响搜索引擎排名的三大核心因素

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 搜索引擎排名算法多变,但我们要以不变应万变,不管怎么变化,都有一个根本,我们不要被迷惑了,网络上扑天盖地的文章,使我们眼花缭乱,不知道哪个是真,哪个是假,本人对搜索排名有多年研究,从中找出一些基本不变的核心原理,掌握这些,能祝您稳定排名,以下是本人身为6年站长的一些经验总结,望各位站长能够有选择性的采用. 一.注重网站的更新.更新内容的频率越

研究:规范化的HTML代码有利于搜索引擎排名

规范|规范化|排名|搜索引擎 规范化的Html代码对一个网站有诸多好处,比如:改版方便.代码容易维护.代码量小.网站打开速度快.适合更多人群阅读等,这里就不一一列举.单从网站优化的角度看,规范化的Html代码更有利用搜索引擎排名.但是很多站长却没有认识到这一点,影响网站在搜索引擎上的排名. 下面,我们就开始对我们的网站进行初级改善: 给网页添加 DOCTYPE 什么是DOCTYPE?DOCTYPE是Document Type的简写,明白什么是DOCTYPE了吧!DOCTYPE就是文档类型,用来说