百度lee:搜索引擎索引系统概述(一)

  从上次8月份百度站长平台lee发布关于搜索引擎抓取信息后2个月已经过去,这次lee继续发布了搜索引擎索引系统的信息。不管怎么样,木木SEO认为百度官方的公告我们还是要了解和分析的。下面是百度官方公告:

  众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。过去几周给大家介绍了抓取相关的简要过程。今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?

  如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:

  


  (1)页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等;

  (2)分词的过程实际上包括了切词、分词、同义词转换、同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termId、词类、词性等等;

  (3)之前的准备工作完成后,接下来即是建立倒排索引,形成{termàdoc},可以粗略的理解为如下,为什么是【term->doc】,而不是直接应用【doc->term】呢?

  


  上述即是索引系统中的倒排索引过程,是搜索引擎实现毫秒级检索非常重要的一个环节。

  好了,以上就百度发布的全文了,当然是很简单的,想了解更多可以看木木SEO的《不懂搜索引擎原理就是在裸奔》,我想大家在里面可以了解得更详细。另外上面文章里面的几个词可能大家不理解,简单的说一下:term就是单词文本,即关键词;termID就是单词标识。

  文章编辑自:木木SEO博客 http://blog.sina.com.cn/mumuhouzi

时间: 2025-01-19 06:57:30

百度lee:搜索引擎索引系统概述(一)的相关文章

百度(baidu)搜索引擎的15个特点

百度(baidu)搜索引擎的15个特点百度(baidu)搜索引擎使用了高性能的"网络蜘蛛"程序自动的在互联网中搜索信息,可定制.高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息.百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆.香港.台湾.澳门.新加坡等华语地区以及北美.欧洲的部分站点.百度搜索引擎拥有目前世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天几十万页的速度快速增长.由于后台应用了高效的信息索引算法,大大提高了检索时的响应速度和承

百度lee指出网站快照的更新频率与权重并不存在任何直接的关系

摘要: 百度lee在官方平台上明确指出网站快照的更新频率与权重并不存在任何直接的关系,但大部分站长估计都或多或少持怀疑的态度.之前龙形也认为既然百度lee都已经明确指出了,作为百 百度lee在官方平台上明确指出"网站快照的更新频率与权重并不存在任何直接的关系",但大部分站长估计都或多或少持怀疑的态度.之前龙形也认为既然百度lee都已经明确指出了,作为百度官方的权威发言,我们广大站长理应相信.可近端时间龙形的网站优化百度快照经常出现停歇,导致网站关键词排名波动较大,让龙形意识到百度快照与

知己知彼之搜索引擎索引过程

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 这是天刃在"网站推广&SEO"群里针对一些站长对蜘蛛多次检索自己的网站却一直不收录,以及自己网站日志中发现有多个蜘蛛爬自己的站的问题,做的一些详细解答.经天刃同意我把其中的内容整理后发布,呵呵,应该也算原创啊! 搜索引擎的蜘蛛抓取页面的一般过程是这样的. 首先,收集待索引网页的url. 搜索引擎的蜘蛛一般分为两类,

百度站长平台 索引量工具升级版内测公告

站长网(www.admin5.com)8月30 日消息,今天百度站长平台发布索引量工具升级版内测公告,具体内容如下: 各位网站管理员, 很高兴的通知大家,百度站长工具-索引量工具升级版今日开启内测.百度站长平台索引量工具推出以来就受到了广大站长的欢迎,根据我们近期的调研及站长们的建议,索引量工具新增定制查询功能,并同步开启内测,欢迎广大站长参与内测,提出更多宝贵的建议. 本次升级工具亮点: 1.新增定制查询功能:可定制某一类特征网页的索引量数据及趋势,目前支持简单的通配符匹配,模糊匹配出所有相关

通过百度流量和索引量判断网站权重状况

2013年2月19日百度发布萝卜算法公告,事实上百度在2月10-12日就开始大规模更新了,也就是大年初二开始更新.那天我的站流量从2万降到5000,收录停止增加,而同样使用我们系统的站长当中超过80%都表示流量大幅度下降,收录停止增加,有的直接被K,比较普遍的情况是网站首页的主关键字排名全无,甚至连搜索自己网站名称都无法找到名称更不用说长尾关键字了,基本K完. 下面我们通过数据分析来观察百度萝卜算法对网站的影响,从12日到3月初我依然按照原先的方式做内容发外链,就是大家常用的方法伪原创和手工发外

ThinkPHP设置禁止百度等搜索引擎转码(简单实用)_php实例

网站在移动端的阅读不可避免的会遇到转码问题,作为国内搜索引擎老大百度,自然要做技术的领头人了,做了百度转码,有些网站经过转码之后达到了想要的结果,但是有些网站经过百度加工后就是不忍直视,很多内容出现了错乱,Joe的网站也出现了一些错位,于是Joe用了Wordpress插件MobilePress,经过一些汉化修改,感觉比百度的转码更适合自己. 方法1.HTTP Response中显式声明,Cache-control:no-transform. 在config.php 文件中加入 'HTTP_CAC

百度图片搜索引擎使用技巧

百度中文搜索引擎是世界最大的中文搜索引擎,百度从1亿5千万中文网页中提取各类图片,建立了世界第一的中文图片库.您可以直接输入任何关键词搜索到您想要的图片资料. 如何开始图片搜索? 在百度图片搜索引擎主页http://image.baidu.com)搜索框中直接输入您想查询的关键词,然后点击"百度图片搜索"按钮或直接按键盘上的回车键(即Enter键)即可. 需要指出的是,虽然百度是世界第一的中文图片库,但某些图片可能仍未被百度收录,某些图片对关键词不敏感,所以输入某个关键词搜索并不能保证

国内选择百度开展搜索引擎营销的企业已经达接近50万家

去年下半年以来,中小企业融资难越来越受到了有关部门.社会的广泛关注.在此背景下,最近有关部门启动温州金融改革试点,力图在资金层面为中小企业"解渴".然而,有专家指出,除了融资难,中小企业在营销推广方面同样面临着巨大的困境,中小企业对于订单同样"饥渴".传统的营销推广方式投入巨大.见效周期较长,中小企业急需拓展适合自身情况的营销推广渠道.对此,专家建议,广大中小企业可以通过互联网渠道展开小投入.快见效的营销推广,其中最为有效的就是百度搜索营销.数据显示,去年,国内选择

JS判断来路是否是百度等搜索索引进行弹窗或自动跳转的实现代码_javascript技巧

比如百度收录了你的a,你希望从a站被点击访问后,再跳转或弹出b站,可以用下面的方式. 当然可以直接用window.open() 弹出窗口,可以多个弹窗,也可以用form的方式.不过两种方式,都有被360过滤的可能. self.location 这个方式是转向,不会被当成广告过滤. <script type="text/javascript"> $(function(){ var s=document.referrer; //获取来源地址 if(s.indexOf("