搜索引擎的一般原理-搜索引擎技术

     搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
  真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
  现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如"恶魔撒旦",但如果有别的网页B用链接"恶魔撒旦"指向这个网页A,那么用户搜索"恶魔撒旦"时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为"恶魔撒旦"的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索"恶魔撒旦"时也会被认为更相关,排序也会越靠前。
  搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
 
从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
 
  搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

时间: 2024-07-28 13:52:50

搜索引擎的一般原理-搜索引擎技术的相关文章

搜索引擎算法的分词技术

我们知道,每个搜索引擎都具有分词技术,那么关于分词技术作为SEOer的你了解多少,了解搜索引擎的分词技术对搜索引擎算法研究是很有帮助的,好,下面泰州SEO给大家讲讲什么是搜索引擎的分词技术! 要了解搜索引擎的分词技术就不能不去了解搜索引擎的索引库,因为索引库是分词技术的前提!索引库呢其实就是经过页面分类信息删选过的资料库:我们在去百度搜索信息的时候,百度搜索引擎并不是现查现找,而是搜索引擎早就把各类信息分类归档,每种分类的信息都有一个独立的资料库,而这个独立的资料库就是我们说的索引库,当我们去百

如何利用搜索引擎的消噪技术提升SEO效果

  消噪是搜索引擎预处理的一个基本步骤,指的是搜索引擎识别出页面上与主题不相关的内容,将其删除的过程.本篇刑天营销即与大家聊一聊如何利用搜索引擎的消噪技术来提升我们网站的SEO效果. 一.消噪技术的原理 对搜索引擎来说,并不是网页上的所有部分它都需要抓取,有一些部分对排名计算是没有意义的,比如导航条.版权文字说明.广告等等区块.考虑到搜索引擎需要处理的网页数量非常庞大,这部分无意义内容的绝对量也是非常大的,为了节省计算资源,提升排名计算的速度,搜索引擎在预处理时会将这些内容识别后剔除出去.这个过

搜索引擎优化法则-搜索引擎技术

1.在申请域名前就要确定你网站的主题,而且至少有100个左右与主题相关的页面:而且每个页面都应该有实际的内容.然而这只是网站设计或者说是网站优化的一个开始.2.域名问题:对于搜索引擎优化来说,申请域名的时候易记性不是最主要的,最主要的域名里是否包含了所优化的关键字.3.网页设计的思想:越简单越好,HTML代码要精简,网页内容要充实,远离花哨的东西.如 FLASH.JAVASCRIPT 等等对搜索引擎来说是不实际的东西,事实上对于浏览者来说意义也不大.要吸引浏览者最重要的是在页面颜色搭配方面多下功

搜索引擎优化-seo搜索引擎优化

搜索引擎优化研究方法:技术性研究法 做搜索引擎优化,如果不懂搜索引擎技术的话就不是一个好的SEOER.懂搜索引擎技术不仅仅是要明白搜索引擎的工作原理.搜索引擎分词原理.信息处理技术,更应该深层次的搜索引擎处理信息的技术核心点,把握住技术走向,做到知己知彼.我们永远不会知道搜索引擎算法中最核心的东西,不过可以把握到核心的方向.搜索引擎改善用户体验必须要做到速度要快.准确度要高.歧义消除.表现形势多样.例如,谷歌搜索结果中有种分栏效果,如果不懂技术的话就会天马行空的猜测,而懂技术的一眼就能看出眉目,

搜索引擎营销:搜索引擎优化与竞价排名广告大比拼

      迄今为止,搜索引擎营销无疑是互联网络上最理想的目标访问量来源.据权威统计,全球有超过80%的互联网用户通过搜索引擎来寻找所需信息或产品.因而争夺网站在搜索引擎的搜索结果的出现位置,就成为这场日益升温的大战的焦点.      搜索引擎营销目前主要有两大流派:一种是竞价排名广告模式,也叫点击付费广告(PPC),另一种就是SEO,也就是搜索引擎优化推广模式.      PPC搜索引擎广告是按实际发生的广告点击数来向搜索引擎支付广告费用.客户的广告排名主要由竞标价格决定.它们一般以"赞助链接

萧涵:略谈百度搜索引擎的中文分词技术

了解搜索引擎分词技术对于我们的SEO工作有着重大的意义,不管是我们的关键词布局还是链接架构,都跟分词有莫大的关联.这里萧涵给大家谈下一百度的中文分词(当然也不局限于百度,其他搜索引擎也是差不多的).本文分两个部分,首先是摘取已有的关于分词的解释,另外再加入我自己对分词的扩展思路. 什么是中文分词? 我们都知道,英文句子都是由一个一个单词按空格分开组成,所以在分词方面就方便多了,但我们中文是一个一个汉字连接而成,所以相对来说是比较复杂的.中文分词指的是将一个汉语句子切分成一个一个单独的词,按照一定

SEOer值得了解的搜索引擎索引和分词技术

在网络公司做过程序开发的朋友都知道,我们通常用的数据库搜索技术就是把用户输入的词汇,跟数据库中的某个或多个字段里的内容进行比较,同样,搜索引擎的运行原理简单来讲也就是这样: 用户输入一个词汇,搜索引擎从他的数据库中找到匹配的内容,再以有序的排列展现给用户,搜索引擎每天就是不厌其烦地不断重复这些操作.看似一切很正常,我们用数据来分析问题-- 全球网民按20亿计算,全球所有网站的网页先假设是50亿个 按每人每天搜索1次(也就是1个关键词,假设都是不重复的) 那么搜索引擎每天要从50亿个网页中搜索比对

搜索引擎的第三定律-搜索引擎技术

搜索引擎走到今天,已经是一个结束过去,开辟未来的时候了.为了说清楚我所讲的第三定律,我们先来回顾一下第一和第二定律. ..................................................................................... ■ 第一定律 相关性定律 听起来象是一篇学术论文,的确,就连第一,第二定律的提法以前也没有过,但是第一,第二定律的内容确早已在业界和学术界得到了公认.其实这第一定律是早在互联网出现之前就被学术界广泛研究过的,那

中文搜索引擎的研究-搜索引擎技术

目前搜索引擎的应用越来越广,是网民的上网必备工具.   在中国使用广泛的搜索引擎主要有:baidu google 中搜 北大天网 一搜 搜狗 还有一些专业的搜索,比如海量做的音乐搜索 http://www.1234567.com 还有 西祠胡同 的创始人 做的 http://www.pagou.com ,这些都是做的挺不错.由此可见,搜索引擎的市场还是非常庞大的.尤其是baidu的成功上市,给业界很大的鼓舞.   目前的主要搜索引擎的模式都是,用户输入一些关键字或者句子,无论是那种,搜索引擎都会