搜索引擎原理-搜索引擎技术

    搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
 
    搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。
 
    真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
 
    现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的文字,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
 
    搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。 
 
    1.从互联网上抓取网页 
    利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
 
    2.建立索引数据库 
     由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

    3.在索引数据库中搜索排序 

时间: 2024-12-01 19:07:12

搜索引擎原理-搜索引擎技术的相关文章

搜索引擎基本工作原理-搜索引擎技术

■ 全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念.搜索引擎的自动信息搜集功能分两种.一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出"蜘蛛"程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库. 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出"蜘蛛"程序,扫描你的网站并将有关

搜索引擎原理和用户使用习惯

摘要: 搜索引擎是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.当用户在搜 搜索引擎是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.当用户在搜索框输入一个关键字后,我们应该给用户返回什么内容呢? 一.搜索引擎原理和用户使用习惯 1.1 搜索引擎是一个可供所有人检索的数据库 图1:搜索引擎简单的人机交互过程

网络 搜索引擎与智能代理技术

搜索引擎|网络 互联网在全球范围内的迅速发展与成熟,促使社会各领域信息飞速膨胀,为人们查找.获取 有用信息提供了丰富的信息源,但也给信息的准确定位提出了挑战.提供网上资源的检索是 网络信息服务的重要内容之一,加之现代人也对信息把握的正确性和全面性提出了越来越高 的要求,因此,当务之急是开发性能优越的网络信息检索工具. 1993年,第一批搜索引擎诞生后,发展至今已经逐渐走向成熟,伴随着计算机智能化研究的 不断发展,具有适应性和学习性特征的智能代理技术也正从试验阶段过渡到实际应用.目前 ,搜索引擎(

用搜索引擎原理来解释爬虫(蜘蛛)是什么

很多人看来的爬虫是神乎其神的,也造成一个最常见的"实践后的经验之谈"--实践证明百度爬虫会秒收原创的内容! 当然在任何一个略懂搜索引擎原理的人眼中,这就是毫不靠谱的实践.如果说实践是验证真理的方式的话,那前提要是有了比较完善的理论假设以后再去验证的.而像爬虫根本没有分析内容的能力,怎可能判断页面内容是否原创以后再进行收录呢? 甚至有人认为爬虫根本就不会去抓取采集的内容,这就更奇怪了,爬虫不是先知,抓取之前怎么会知道页面是否是采集的呢?(这里不考虑一个特殊情况,即搜索引擎可能参考网站整体

为什么要了解搜索引擎原理

摘要: SEO行业在中国经过多年的发展,已经风风火火起来了,也有越来越多的人加入了SEO的行业中,不过SEO在中国起步的时间不算长,加上许多外在因素的影响,导致很多SEO新人们在学习的过 SEO行业在中国经过多年的发展,已经风风火火起来了,也有越来越多的人加入了SEO的行业中,不过SEO在中国起步的时间不算长,加上许多外在因素的影响,导致很多SEO新人们在学习的过程中吃尽了苦头,今天和大家分享一些关于我自己在学习SEO过程中走过的一些弯路,系统给后来新人提个醒! 我们学习某样东西至少要先了解这样

想要抢占移动网络时代制高点?搜索引擎优化优化技术很重要

据最新数据统计表明,移动网络的发展已经进入了快速道,2011年移动互联网的用户数已经超过4亿,在2012年,移动互联网用户数将会首次超过传统互联网的用户数,移动网络时代的到来已经不可逆转了,那么作为移动互联网主要的供应商,移动互联网上的网站如何获得更好的用户数,如何占据更好的搜索引擎排名,就成了头等大事了!换句话说,谁懂得了移动网络的搜索引擎优化优化技术,谁就占领了移动网络时代的制高点! 可是我们知道,移动互联网因为手持终端的差异非常明显,屏幕尺寸千变万化,如果仅仅把传统互联网上的网站移植到移动

搜索引擎原理简析 不懂搜索引擎原理的SEOer就是在裸奔

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 不懂搜索引擎原理的SEOer就是在裸奔. 嗯,在结束废话之前,再插一句:中国第一个基于网页索引搜索的搜索引擎是北大的天网. 好,先上图来简单看下搜索引擎的"三板斧":数据搜集->预处理[索引]->排名. 数据搜集 即数据的搜集阶段,将网页从浩如瀚海的9201.html">互联网世界搜集到自己的数

世界各大著名搜索引擎简介-搜索引擎技术

中文搜索引擎 Google搜索引擎 (http://www.gogle.com/)目前最优秀的支持多语种的搜索引擎之一,约搜索3,083,324,652 张网页.提供网站.图像.新闻组等多种资源的查询.包括中文简体.繁体.英语等35个国家和地区的语言的资源. 百度(baidu)中文搜索引擎 (http://www.baidu.com/)全球最大中文搜索引擎.提供网页快照.网页预览/预览全部网页.相关搜索词.错别字纠正提示.新闻搜索.Flash搜索.信息快递搜索.百度搜霸.搜索援助中心. 北大天网

网站如何去服务于搜索引擎 为搜索引擎服务就是为自己服务

有很多站长在优化网站的过程中非常害怕搜素引擎,感觉搜索引擎就是天王老子,整天就是躲得远远的,提防着搜索引擎.其实搜索引擎也是个打工的,每天也在不停的干活,也要去满足用户的需求.所以不要害怕搜索引擎,网站和搜索引擎的目的都是一样的,就是获得用户,我们应该和搜索引擎合作,从搜索引擎的角度去服务于搜索引擎,为什么这么说?听我慢慢道来. 搜索引擎的目标 首先服务搜索引擎之前看看搜索引擎的目标,搜索引擎可以说是目前所有互联网应用里技术含量最高的之一,尽管其应用形式非常简单:用户输入关键词,搜索引擎返回搜索