搜索引擎的工作原理

在Internet上,特别是其上的Web(World Wide Web万维网)上,你天天在上网但你了解搜索引擎吗?它们是怎么工作的?你都使用哪些搜索引擎?下面就来说说搜索引擎的工作方法吧.

一、搜索引擎的分类

获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。
目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

要进行搜索引擎优化,首先要知道搜索引擎是如何工作的,只有知道搜索引擎是如何工作的以后,才能更好的 进行优化工作,做出对于搜索引擎更加友好的网站,这样才会有好的排名。
  搜索引擎最主要的由三部分组成:蜘蛛程序、索引和软件。下面我们拿Google举例。 
蜘蛛程序
  Google的蜘蛛程序分为主蜘蛛和从蜘蛛,当Google全面更新数据库或收录新网站时,派出主蜘蛛,对网站进行 全面的索引(如收录新页、重新确定网页级别等);当Google对网站日常更新时,派出从蜘蛛,对网站内容进行维 护。当发现页面有变化时,其从蜘蛛对此页面进行更新,重新抓取内容。蜘蛛程序会根据一个固定的周期回访其目 录中的站点,寻找更新。至于爬行程序回访的频率,这要由搜索引擎确定。网站拥有者通过采用一个名为robot.txt的 文件确实能控制爬行程序访问这个站点的页面。搜索引擎在进一步爬行一个网站之前首先查看这个文件。 
目录索引
  目录索引就像一个巨大的网站目录,这个目录中全是其蜘蛛程序抓取的网站的列表。据Google公布的数据,目 前,Google已经收录了80亿个网站,而更新这些索引也是相当费时间的,一般更新的周期大约一个月左右,所以, 对于一个新网站来说,蜘蛛程序可能已经爬行了你的网站,但没有列如索引中,而第一次被列入的也是基本索引, 还未别列入其主索引中,只有当Google下次更新索引时才会被列入主索引,在这期间,Google会对网站有一个相应 的评估,会临时出现一个较好的排名,但此时的排名不是真正的排名,只有等到Google下次更新时,才会转化为真 正的排名。这也就是说为什么一个新的网站被索引了而却找不到排名,或者说一个新网站刚开始排名很好,而过段 时间排名就下降或是找不到的原因。
  至于蜘蛛是否爬行过你的页面、什么时间对你的网站进行抓取等,请看相关文章:查看服务器日志。 
程序
  Google会对其索引中的网站按照自己独有的程序进行判断,为每个网站进行分类、评分并对网页中的内容进行 分析,找出关键词,当用户输入一个关键词搜索时,就会按照分析好的索引进行排列并加以显示。
  对网站确定关键词、分类、及排名等全都是由程序自动完成的,不加任何人工干预,这也就是体现Google的公 平、公正,展现给用户的是最真实、最好的内容。

全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。

分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”。

全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索(www.baidu.com);把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索和雅虎中国搜索(http://cn.search.yahoo.com/dirsrch/)。

在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类:

⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”
(http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。

⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀”(http://free.okey.net/%7Efree/search1.htm)。

全文搜索引擎
  在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

  另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

  当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

........................................................................................

3 目录索引
  与全文搜索引擎相比,目录索引有许多不同之处。

  首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

  其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)

  此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

  最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

  目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

  

 

时间: 2024-10-02 12:28:38

搜索引擎的工作原理的相关文章

浅谈搜索引擎的工作原理及未来算法调整方向

在A5站长网上摸爬滚打了多年了,期间也写了好几篇的文章,其中有一篇<浅谈地方汽车门户网站运营的四个问题>还被推荐到了首页,我发给我们的朋友看的时候,大家对我这个曾经的菜鸟也开始刮目相看了,这让我本人在这段时间身心都愉悦的很,现在又忍不住在A5上发表一下我对搜索引擎工作原理及算法上的认识,可能比较的浅陋,但是有了想法,不吐还是不快的! 做网站SEO是一个非常枯燥的过程,很多人估计除了吃饭睡觉剩下来的时间就奉献给了电脑了,这样怎么能够把身体搞好呢?这不现在每天爬六楼都累得不行,这对于一个大小伙子实

【科普】搜索引擎的工作原理

昨天的文章 全球化的误区,本地化的机会 ,评论里,有人说,搜索引擎技术似乎不需要本地化,这一看就是彻底不懂这个领域的人讲的.当然,实话说,如果有人说,google在中文本地化方面做得非常好,我是可以部分同意的,同意的比例可能会比google工程师少一些.但我相信google工程师也会告诉你,搜索引擎是需要本地化的. 今天写篇科普文,讲讲搜索引擎的技术机理和市场竞争的一些特点.当然,作为从事或有兴趣从事流量运营的朋友,是可以用另一个角度去理解本文. 搜索引擎的核心技术架构,大体包括以下三块,第一,

了解搜索引擎的工作原理提升SEO思维境界

虽然做seo不是研究搜索引擎的算法,也不用去编写搜索引擎那么复杂的计算方式,不过武汉seo刘俊认为稍微了解一下搜索引擎的计算方式和工作原理可以有效的提升seo的境界,让我们站长在做seo的时候明白自己究竟为什么这样做,这样才能从根本上提升seo水平. 1.搜索引擎工作大致可以分为三个阶段 阶段一.蜘蛛爬行页面抓取信息 蜘蛛是搜索引擎爬行互联网庞大信息的程序,这里我们只需要知道蜘蛛是沿着html链接一直往下爬行的就可以了,这也是我们为什么要做好站内锚文本链接的原因,让蜘蛛从站外链接爬行到站内可以有

搜索引擎基本工作原理-搜索引擎技术

■ 全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念.搜索引擎的自动信息搜集功能分两种.一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出"蜘蛛"程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库. 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出"蜘蛛"程序,扫描你的网站并将有关

搜索引擎基本工作原理

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 ■ 全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念.搜索引擎的自动信息搜集功能分两种.一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出"蜘蛛"程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库

何涛:从搜索引擎工作原理折射出的SEO知识(中)

在前面一篇文章里(搜索引擎工作原理折射SEO知识上)有说到搜索引擎的工作原理的前部分也就是如何通过蛛蛛来抓取网络信息的问题.从中我们也了解到,蛛蛛的一些习性与SEO的一些操作小技巧.在今天的文章中我们会看到更多的有关于搜索引擎的内容,好了废话就不多说了. 我们都知道蛛蛛它毕竟还只是个程序而已,他做的工作不会通过网站的前台来分析一个网站内容,而是通过网站的代码来进行抓取信息的.而在网站的源代码里我们会看到好多html.js等一些程序的语句.而蛛蛛他只会对里面的文章感兴趣,也就是说他只提取网页里的一

第二课笔记:搜索引擎基础知识和工作原理

  大家好,我是专门从事SEO的,几个月来一直都在维护和优化按摩器排行榜www.yziyuan.com这个网站,并从中总结了很多的经验和知识.今天要分享的是<搜索引擎基础知识和工作原理>,这是最基本的概念吧, 第一部分:什么是搜索引擎? 1,定义? 官方定义: 搜索引擎是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.百度和谷歌等是搜索引擎的代表. 我的理解是: 按照搜索引擎的搜索规则去设置目标网站的

SEO新手必看 搜索引擎工作原理之一

新手SEO是为了什么,也就是为了有一个好的排名,除了大型网站可以依靠长尾带来巨大的流量,一般的新站长能用SEO得到一个稳定的关键词排名,就能带来稳定的流量,网上SEO的文章多如牛毛,但自己也要有系统学习的流程,想得到好的排名,就要知道搜索引擎工作原理大致是怎么样的,详细的工作原理你就不用管了,据说全世界也没几个,废话不多说,进入正题. 搜索引擎的工作原理是非常复杂的,前面就提过真正懂的全世界也没几个,但我们只要知道一些皮毛就够用了.搜索引擎的工作过程可以分为三个阶段. 一.爬行和抓取 这个大家都

肖玉强:图解搜索引擎工作原理

  做SEO的,如果不懂搜索引擎的工作原理是很难恰当开展工作的.前几天给学生讲SEO课程中的搜索引擎工作原理时,很多同学表示不太懂.后来我画了搜索引擎主要工作流程的示意图给大家,很多同学表示"懂了". 我们先来看搜索引擎的主要工作:页面收录.页面分析.页面排序及关键字查询.搜索引擎的工作流程是:页面收录--页面分析--页面排序--关键字查询. 一.搜索引擎工作原理--页面收录   搜索引擎工作原理示意图--页面收录流程 页面收录的最终目的是将网站上的内容加入到URL列表,积累URL资源