搜索引擎核心算法:自然语言和布尔搜索

  本人从事搜索引擎相关的工作已有十一年,今天与大家一起谈谈搜索引擎核心算法之:自然语言和布尔搜索。论述引出了如下结论:搜索爬虫和搜索引擎使用某种启发式方法给网页排名,并返回结果。爬虫观察模式,以确定某网页的内容,搜索引擎在搜索查询中查找模式,并与爬虫识别的模式进行比较,并返回结果。

  这个理论的复杂性在于,我们使用的是活跃的、不断成长、不断演变的语言,这意味着语言的使用模式也在不断变化。为了跟上这种变化,搜索引擎也必须是活跃的、不断成长、不断演变的,所以在理解如何针对搜索引擎定位阿站时,启发式方法是一个非常重要的概念。理解它的最简单方法是比较过去和现在的搜索行为,确定搜索是如何演变的。

  开始时使用布尔搜索

  今天,人们的搜索方式与搜索引擎刚刚问世时的搜索方式完全不同。记得以前提过 Archie、Gopher、Jughead和verojnuca 这些早期的索引和搜索程序的能力是相当有限的,要在索引中查找信息,必须对索引非常了解。实际上,使用Archie和Gopher时,必须知道所要查找的文档或文件的确切位置。


  有了Jughead和Veronica后,就可以实际搜索信息了:但那时,搜索仍是非常基本的。当搜索最终变为可能时,如何查找文件是有一些严苛的规则的。在搜索引擎的早期,还没有今天非常普遍的自然语言搜索。

  用户必须指定他们要搜索“这个短语”,而不是搜索“那个短语”,或者精确搜索某个短语.输入靠尔逻辑——在索引中查找正确的文件或文档所需的方法。布尔逻辑基于GeorgeBoole在19世纪中叶提出的逻辑代数系统。

  实际上,布尔逻辑就是把数据分解为集合,直到数据集合非常小,满足初始查询提出的要求为止。例如,在搜索时,网络上可能有1000个网页有关“pools”,有1000个网页有关“saltwater”,如果搜索“saltwater pools”,就会返回所有2000个阿页。这实在太多了。但合并这两个术语,仅查找既包含“saltwater”、又包含“pools”的网页,则只返同原来2000个阿页中的一小部分,如图5—1所示。

  为了使这个例子更进一步,可以添加一个限制符,例如“not chlorine”,以缩小数据集合。添加这个限制符时,会去除另外部分数据,满足“pools,saltwater. but not chlorine”查询的选项就更少了,如

  这个例子演示了布尔搜索中使用的3个运算符:与、或、非。布尔逻辑基于逻辑代数系统,所以这些运算符都可以用一个符号表示:

  ·与:+

  ·非;

  ·或:默认运算符,返回包含任意一个单词的所有页面,而不管它们的接近程度如何。该运算符用单词之间的空格表示。

  刚开始时有2000个网页,但使用布尔逻辑运算符来分解数据集合,就大大减小了搜索范围。现在找到需要的内容的可能性更大,且查找速度更快。

  在互联网搜索的早期.布尔逻辑帮助用户定位需要的文件和文档。从启发式方法的角度来看,布尔逻辑为搜索提供了完美的问题解决能力。但技术会逐渐成熟起来……

  小站(BET365)http://www.588m.com

时间: 2024-08-02 23:32:55

搜索引擎核心算法:自然语言和布尔搜索的相关文章

影响百度搜索引擎优化的最新两大核心算法

中介交易 SEO诊断 淘宝客 云主机 技术大厅 众所周知,百度在今年发布了网页质量白皮书,白皮书对于seoer而言犹如一盏明灯,指引着我们网站优化的方向,3721.html">2014年是百度算法变化最为频繁的一年,很多seoer都觉得网站优化力不从心的感觉愈来愈烈,其实任何一个行业都会由萌芽到发展到鼎盛,seo也不例外,百度不断完善自身的算法只能说是搜索引擎也在不断完善自己的搜索算法,不断改进自己的用户体验,作为seoer我们应该在当下如何有效的优化网站呢?好,咱们闲话短续进入正题,今天

几大搜索引擎排名算法趣味解析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 做优化最关心的是什么,当然是在几大搜索引擎的排名,几年的淘汰,现在的格局是百度一家独大,然后带领360和新搜狗二个小弟,谷歌中国只剩下不到3%的市场,基本上可以忽略不计,但是谷歌毕竟在全球还是搜索老大,粉丝效应还有一些的用户. 百度:个人觉得百度在排名算法是最人性的,虽然说这个话可能引来好多人的吐槽,因为好多人深受百度其害,认为百度是是难伺候

过度追逐搜索引擎的算法导致关键词排名不稳定

一般刚入门的SEOer在学习SEO技术的时候都是按着搜索引擎的算法在做排名的,不过像我们一般人又怎么可能知道那些最机密的搜索引擎排名算法呢?不过还是有些高手可以通过一些数据的观察以及一些网站的变化,可以推断出搜索引擎在哪些地方做出了调整.这部分高手值得尊敬,但不是所有的SEOer可以学习乃至于做到的,其实我们也没有必要去做到这些.因为网站的关键词排名并不仅仅只局限于搜索引擎的基本算法. 据谷歌方面的消息,谷歌作为世界上最优秀的搜索引擎,每年对算法的改进多达500次.平均下来那就是每天都会修改1.

用户体验度终极分析 揭秘排名核心算法

关于用户体验度,你也许看过很多文章.但我觉得你需要仔细看完这篇文章,当你真正了解了这篇文章涉及的知识后,你会发现,原来你的认知还比较有限. 大家都知道用户体验度,也清楚用户体验度的重要性.而且用户体验度是百度核心算法,并且在非常长的时间内不会改变.下面给大家讲述用户体验度是怎样影响网站排名的. 一.百度所谓的用户体验度和网站的真实用户体验度是否一样? 答案是不一样.且听我细细道来,网站的用户体验度是网站真实存在的的一个东西,根据网站的跳出率就可以大致了解网站的用户体验度.但问题是,百度是无论如何

追逐搜索引擎的算法太累 做好SEO有更好的方法

现在太多做SEO的人希望能破译搜索引擎的算法用在自己的网站上,从而获取良好的排名,我看到有很多做SEO的人天天盯着搜索引擎的算法去做优化.搜索引擎一有风吹草动就赶紧弄明白搜索引擎哪项算法作出调整了.其实这么做就像猫抓老鼠一样,很累,而且太不现实.据谷歌的官方说法是:谷歌一年对算法的调整不下500次.也就是说差不多一天都会进行一次半的调整,开发搜索引擎的人多聪明,人家整团队有多少人.我们怎么可能准确的抓住搜索引擎的算法呢,我们需要透过现象看本质,抓住一些本质的东西,尽量的把握一些不可按的东西.才能

解密搜索引擎的算法发展历程

大家知道搜索引擎的算法是变幻莫测的,也就是说搜索引擎这些年来是不断发展,不断改进的.也许今天是这样的算法,明天就会是别的算法了.今年这个算法管用,明年这个算法就不是这么回事了.所以有的网站今年使用这样的手法获取了排名,等到明年搜索引擎算法一改变的时候,关键词排名就下降了.所以了解搜索引擎最新的算法成了我们广大SEOer不断追求的目标.据相关人士透露,谷歌一年对于算法的调整大概有500多次,平均算下来的话,每天就有一1.5次的算法调整,所以今天带大家探讨搜索引擎算法发展的历程有着重大意义.接下来就

x264代码剖析(十八):核心算法之滤波

x264代码剖析(十八):核心算法之滤波           H.264/MPEG-4 AVC视频编码标准中,在编解码器反变换量化后,图像会出现方块效应,主要原因是:1)基于块的帧内和帧间预测残差的DCT变换,变换系数的量化过程相对粗糙,因而反量化过程恢复的变换系数有误差,会造成在图像块边界上的视觉不连续:2)运动补偿可能是从不是同一帧的不同位置上内插样点数据复制而来,因为运动补偿块的匹配不可能是绝对准确的,所以就会在复制块的边界上产生数据不连续:3)参考帧中的存在的不连续也被复制到需要补偿的图

x264代码剖析(十七):核心算法之熵编码(Entropy Encoding)

x264代码剖析(十七):核心算法之熵编码(Entropy Encoding)   熵编码是无损压缩编码方法,它生产的码流可以经解码无失真地恢复出原始数据.熵编码是建立在随机过程的统计特性基础上的.本文对熵编码中的CAVLC(基于上下文自适应的可变长编码)和CABAC(基于上下文的自适应二进制算术熵编码)进行简单介绍,并给出x264中熵编码对应的代码分析.     在H.264的CAVLC中,通过根据已编码句法元素的情况,动态调整编码中使用的码表,取得了极高的压缩比.CAVLC用于亮度和色度残差

x264代码剖析(十六):核心算法之宏块编码中的量化编码

x264代码剖析(十六):核心算法之宏块编码中的量化编码           为了进一步节省图像的传输码率,需要对图像进行压缩,通常采用变换编码及量化来消除图像中的相关性以减少图像编码的动态范围.本文主要介绍量化的相关内容,并给出x264中量化编码的代码分析.   1.量化编码           量化过程就是根据图像的动态范围大小确定量化参数,既保留图像必要的细节,又可以减少码流.在图像编码中,变换编码和量化从原理上讲是两个独立的过程.但在H.264中,将两个过程中的乘法合二为一,并进一步采用