搜索引擎排名三大定律2-搜索引擎技术

  召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。
 
  影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制
三、主要技术
 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
 
 1.搜索器
  搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:
 ● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo!)。
 
 ● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。
 
 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。
 
 搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
 
2.索引器
 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
 
  索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。
 
 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。
 

时间: 2024-10-29 23:49:06

搜索引擎排名三大定律2-搜索引擎技术的相关文章

了解搜索引擎排名三大定律

摘要: 搜索引擎排名三大定律,即搜索引擎自信心定律,搜索引擎相关性定律,搜索引擎人气质量定律.(以下内容针对百度而言) 1.搜索引擎自信心定律:主要是针对百度竞价用户而言, 搜索引擎排名三大定律,即搜索引擎自信心定律,搜索引擎相关性定律,搜索引擎人气质量定律.(以下内容针对百度而言) 1.搜索引擎自信心定律:主要是针对百度竞价用户而言,假如竞价用户对自己的网站有信心,认为网站足够好,认为网站在百度推广投资后,可以获得高额的收入,自然愿意在百度推广中多投钱.当然,百度推广投资越多,排名就越靠前.

搜索引擎排名三大定律1-搜索引擎技术

搜索引擎技术及趋势[出自搜索引擎直通车]随着因特网的迅猛发展.WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务).目前,搜索引擎技术正成为计算机工业界和学术界争相研究.开发的对象. 搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术.据发表在<科学>杂志1999年7月的文章<WEB信息的可访问性>估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个

搜索引擎排名三大定律3-搜索引擎技术

索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档.索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity). 索引器可以使用集中式索引算法或分布式索引算法.当数据量很大时,必须实现即时索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度.索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响.一个搜索引擎的有效性在很大程度上取决于索引的质量 3.检索器 检索器的功能是根据

纠正搜索引擎排名三大认识误区

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   互联网发展早期,以雅虎为代表的网站分类目录查询非常流行.网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下.用户查询时,通过一层层的点击来查找自己想找的网站.也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎. 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念.搜索引擎的

搜索引擎排名算法新趋势-搜索引擎技术

     众所周知,GOOGLE的PageRank集页面关键词关联度(TITLE, HEADING, DESCRIPTION, ANCHOR TEXT, ALT TAG, CONTENT, KEYWORD DENSITY/PLACEMENTS, PAGESIZE)和链接普遍度LINK POPULARITY(INCOMING LINKS,OUTBOUND LINKS,INSITE CROSS LINKS)为一体的综合性排名算法,也是目前最先进的处于商业化应用的运算法则. 道高一尺,魔高一丈,围绕着

新手必看:搜索引擎三大定律

搜索引擎排名三大定律,即搜索引擎自信心定律,搜索引擎相关性定律,搜索引擎人气质量定律.(以下内容针对百度而言) 1.搜索引擎自信心定律:主要是针对百度竞价用户而言,假如竞价用户对自己的网站有信心,认为网站足够好,认为网站在百度推广投资后,可以获得高额的收入,自然愿意在百度推广中多投钱.当然,百度推广投资越多,排名就越靠前. 2.搜索引擎相关性定律:网站相关性,即网站关键词的词频,也被称为网站关键词的密度.大家都明白,网站相关性越高,越能符合搜索引擎者的需求,当然排名也会越靠前,因此出现了网站大量

搜索引擎排名算法规则:图片ALT属性文本不再有效-搜索引擎技术

搜索引擎排名算法规则:图片ALT属性文本不再有效       在网页设计中,图片的属性ALT标签用于对图片进行命名等描述说明.ALT标签众多关键词信息在搜索引擎优化中曾发挥了一定作用,常被用于增加网页关键词密度,因此在ALT中合理添加与主题有关的关键词属于搜索引擎优化中考虑的一个因素.不过,最近美国SEO研究网站WebMarketingNow和Search Engine Academy根据长期测试研究认为,目前,三大主流搜索引擎Google, Yahoo!和MSN的搜索引擎排名算法规则中不再将图

探密影响搜索引擎排名的三大核心因素

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 搜索引擎排名算法多变,但我们要以不变应万变,不管怎么变化,都有一个根本,我们不要被迷惑了,网络上扑天盖地的文章,使我们眼花缭乱,不知道哪个是真,哪个是假,本人对搜索排名有多年研究,从中找出一些基本不变的核心原理,掌握这些,能祝您稳定排名,以下是本人身为6年站长的一些经验总结,望各位站长能够有选择性的采用. 一.注重网站的更新.更新内容的频率越

研究:规范化的HTML代码有利于搜索引擎排名

规范|规范化|排名|搜索引擎 规范化的Html代码对一个网站有诸多好处,比如:改版方便.代码容易维护.代码量小.网站打开速度快.适合更多人群阅读等,这里就不一一列举.单从网站优化的角度看,规范化的Html代码更有利用搜索引擎排名.但是很多站长却没有认识到这一点,影响网站在搜索引擎上的排名. 下面,我们就开始对我们的网站进行初级改善: 给网页添加 DOCTYPE 什么是DOCTYPE?DOCTYPE是Document Type的简写,明白什么是DOCTYPE了吧!DOCTYPE就是文档类型,用来说