知己知彼之搜索引擎索引过程

  这是天刃在“网站推广&SEO”群里针对一些站长对蜘蛛多次检索自己的网站却一直不收录,以及自己网站日志中发现有多个蜘蛛爬自己的站的问题,做的一些详细解答。经天刃同意我把其中的内容整理后发布,呵呵,应该也算原创啊!

  搜索引擎的蜘蛛抓取页面的一般过程是这样的。

  首先,收集待索引网页的url。

  搜索引擎的蜘蛛一般分为两类,这第一类的主要工作就是收集网页的中有效的URL。它们的任务是一刻不停地扫描Internet资源,以随时更新其搜索引擎庞大的url列表以供它的第二类蜘蛛使用。也就是说,当这一类蜘蛛访问我们网页的时候,并不在于索引我们的网页,而是在寻找网页中的所有有效链接。

  关于有的站长在自己的访问日志中发现多个蜘蛛IP爬自己站的情况。

  我们常用的搜索引擎每天要处理数以亿计的信息,没有一个大型的搜索引擎公司(GOOGLE或百度之类)不配备上万台服务器来共同执行这个工作,因此搜索引擎都拥有不同的数据中心,也就是说有多个robots来检索你的站是很正常的事情。不过这也仅限于第一类蜘蛛,在索引页面的时候,搜索引擎会限制某个特定的数据中心来让专门索引页面的蜘蛛检索你的站。因此朋友们从服务器访问日志中时常可以看到源自不同IP的蜘蛛,在很短的时间内频繁访问网站。不过千万不要高兴得太早,也许其根本不是在索引你的网页而只是在扫描url。

  顺便贴几个百度几个常用的蜘蛛IP

  15 220.181.19.

  16 159.226.50

  17 202.108.11

  18 202.108.22

  19 202.108.23

  20 202.108.249

  21 202.108.250

  22 61.135.145

  23 61.135.146

  补充一下,第一类蜘蛛索引时记录的信息主要包括网页的url、最终修改时间等。

  原yesky编辑问: 我认为蜘蛛爬取后,不能立即在搜索中体现,是cache与内容筛选工作的缘故。不同的站有不同的权重,这个时间也会不一样。最典型的是yesky的站,权重高,yesky首页上的链接,早上新增,下午就可以在百度中搜索列表中体现出来。

  当然不可能内容抓取后便立即体现,就像你前几天说的,在页面索引后有一个释放的过程。

  问:还有个现象就是,很多小站,见蜘蛛爬了新页面,短期在搜索列表中是搜索不到的。但是在搜索引擎的cache服务器中,却可以搜索到。

  对于一些小站的网页而言,只要第二类蜘蛛开始索引网页了,即使整个收录过程还没有完成,相应的网页便有了出现在搜索引擎索引库中的可能,比如我们在查询我们网站收录情况的时候,常常看到标注为补充结果只显示网页的url或有的只显示网页标题与url但没有描述的页面,这就是处于这一阶段网页的正常结果。当搜索引擎真正读取、分析、缓存了这个页面后,它便可以从补充结果的缓存出来显示正常的信息了。

时间: 2024-09-11 11:00:32

知己知彼之搜索引擎索引过程的相关文章

百度lee:搜索引擎索引系统概述(一)

从上次8月份百度站长平台lee发布关于搜索引擎抓取信息后2个月已经过去,这次lee继续发布了搜索引擎索引系统的信息.不管怎么样,木木SEO认为百度官方的公告我们还是要了解和分析的.下面是百度官方公告: 众所周知,搜索引擎的主要工作过程包括:抓取.存储.页面分析.索引.检索等几个主要过程.过去几周给大家介绍了抓取相关的简要过程.今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满

Google改善搜索引擎索引Flash文件

据Google官方博客报道,Google已经开发了一种新的索引算法,可以索引http://www.aliyun.com/zixun/aggregation/12592.html">Flash菜单.按钮以及横幅,或者其他有内容的Flash文件,最近,由Adobe公司提供的Flash技术,Google正在改善搜索引擎索引SWF文件的效果,新的Flash索引算法整合来Adobe的Flash Player技术.这将大为改善Flash内容的搜索效果.不过,尽管搜索引擎现在已经可以索引SWF文件中的静

搜索引擎优化过程中常用的搜索指令

在搜索引擎优化过程中,我们经常用到的是在搜索引擎中输入某某符号来检查网站的收录.链接等等.但是搜索引擎在一开始就准备了很多检查的指令,只是大家很少用过,所以今天整理了搜索引擎优化过程中常用的搜索指令来帮助大家更加清晰的了解搜索引擎,了解网站. 一.双引号""和书名号<>指令--完全匹配搜索 在输入了含有双引号的关键词后,返回的结果是完全匹配了关键词"搜索引擎优化图片"文字的结果,而下面的图片则是包含关键词"搜索引擎优化图片"且可能是分

SEOer值得了解的搜索引擎索引和分词技术

在网络公司做过程序开发的朋友都知道,我们通常用的数据库搜索技术就是把用户输入的词汇,跟数据库中的某个或多个字段里的内容进行比较,同样,搜索引擎的运行原理简单来讲也就是这样: 用户输入一个词汇,搜索引擎从他的数据库中找到匹配的内容,再以有序的排列展现给用户,搜索引擎每天就是不厌其烦地不断重复这些操作.看似一切很正常,我们用数据来分析问题-- 全球网民按20亿计算,全球所有网站的网页先假设是50亿个 按每人每天搜索1次(也就是1个关键词,假设都是不重复的) 那么搜索引擎每天要从50亿个网页中搜索比对

解决HubbleDotNet搜索引擎索引数据不全的问题

   HubbleDotnet是国产.NET平台搜索引擎的翘楚,开放源代码,使用方便,不过我一直在非生产环境下使用.官方网页在HubbleDotNet开源全文搜索数据库项目--技术详解.       以前当数据库使用Mysql的时候没问题,但当使用了MonogoDB做数据源之后,经常出现数据无法全部自动索引的情况.比如有10W的表,常常只能索引到3W甚至更少,乃至每次索引的数量都不同. 这件事拖了我很久,万不得已看日志查源代码,才发现是一个程序上的bug. 系统日志记录如下: LogTime:2

传Craigslist禁止搜索引擎索引用户帖子

[搜狐IT消息]北京时间8月8日消息,据国外媒体报道,有媒体报道称,分类广告网站Craigslist已经要求通用搜索引擎停止索引其网站,使得数据聚合服务3taps和利用其API(应用编程接口)的第三方服务不能向用户提供服务.3taps通过Twitter发布消息称,Craigslist周一 提出了这一要求.3taps今天发布Twitter消息称,"我们对Craigslist采取这一措施 感到遗憾,正在探索恢复服务的可能性.我们可能会在相当长的时期内不能提供服务."Craigslist的帖

Lucene 3.0.0细节初窥(2)-研究在索引过程中的缓存

Lucene有一个问题一直困扰着我, 就是如何在索引文件的时候节省空间, 合理的分配不大也不小的空间有助于在提高搜索速度的同时也能够监测内存的使用情况, 在内存使用到达某个阈值的时候可以触发合并的操作 之前在写一个小程序, 来实现类似于Lucene索引文件的时候, 我是用c++写的, 没有使用内存池, 需要的时候就找操作系统"要"一块, 不需要的时候就还给它, 这样不仅仅在内存的频繁的分配中造成大量的内存碎片, 而且没有用内存池还会带来操作系统的换页情况, 使得本来一共就3M左右的文件

分析搜索引擎收录过程中网页快照的作用

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   为什么我们只要在搜索引擎的搜索框内输入想要查询的关键词,搜索引擎就会立即在广阔无垠的因特网上,把包含关键词所有网页一网打尽,呈现在我们的面前. 如果您了解了搜索引擎的工作原理,就不会这样认为了.每一张网页上都有很多超链接,链接到另外一些网页上,而这些网页上依然有很多超链接,又可以链接到另另外一些网页上-- 按照这个方法,您最后发现,几乎所有因特网上的网页都被链接

搜索引擎的工作过程是什么

中介交易 SEO诊断 淘宝客 云主机 技术大厅 搜索引擎工作过程非常复杂,我们简单介绍搜索引擎是怎样实现网页排名的.这里介绍的相对于真正的搜索引擎技术来说只是皮毛,不过对SEO 人员已经足够用了. 搜索引擎的工作过程大体上可以分成三个阶段: 1) 爬行和抓取 – 搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML 代码存入数据库. 2) 预处理 - 索引程序对抓取来的页面数据进行文字提取.中文分词.索引等处理,以备排名程序调用. 3) 排名 - 用户输入关键词后,排名程序调用索引库数据,计算相关