搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接

  搜索引擎蜘蛛,对于我们来说非常神秘,本文的配图使用蜘蛛侠的原因就在于此。当然我们也不是百度的也不是Google的,所以只能说探秘,而不是揭秘。本文内容比较简单,只是给不知道的朋友一个分享的途径,高手和牛人请绕行吧。

  传统意义上,我们感觉搜索引擎蜘蛛(spider)爬行,应该类似于真正的蜘蛛在蜘蛛网上爬行。也就是比如百度蜘蛛找到一个链接,顺着这个链接爬行到一个页面,然后再顺着这个页面里面的链接继续爬……这个类似于蜘蛛网,也类似于一棵大树。这个理论虽然正确,但是不准确。

  搜索引擎内部是有一个网址索引库的,所以搜索引擎蜘蛛是从搜索引擎的服务器出发,顺着搜索引擎已有的网址爬行一个网页,并将网页内容抓取回来。页面采集回来之后,搜索引擎会对其进行分析,将内容和链接分开,内容暂时先不说。分析出来链接之后,搜索引擎并不会马上去派蜘蛛进行抓取,而是把链接和锚文本记录下来交给网址索引库进行分析、对比和计算,最后放入网址索引库。进入了网址索引库之后,才会有蜘蛛去抓取。

  也就是如果出现了某个网页的外链,并不一定会立刻有蜘蛛去抓取这个页面,而是会有一个分析计算的过程。即便是这个外链在蜘蛛抓取之后被删除了,这个链接也有可能已经被搜索引擎记录,以后还有抓取的可能。而且下次如果蜘蛛再去抓取这个外链所在页面,发现链接不存在了,或者外链所在页面出现了404,那么只是减少了这个外链的权重,应该不会去网址索引库删除这个链接。

  所以说已经不存在的页面上的链接,也有作用。今天就分享这些,以后继续跟大家分享我自己分析的内容,如果有不准确的地方,请大家批评指正。

  转载请注明来自逍遥博客@LiboSEO,本文地址:http://liboseo.com/1060.html 除非注明,逍遥博客文章均为原创,转载请注明出处和链接!

时间: 2024-12-21 18:18:38

搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接的相关文章

搜索引擎蜘蛛爬行规律探秘之二:外链是否有时效性

  <搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接>写完距今天已经20多天了,本来想一直写下去呢,但是写完第一篇之后,忽然没有了思路.今天跟朋友们说起来了外链的时效性,也就是说外链会不会失效. 本文不再讨论理论相关的内容了,而是会举一些例子来证明第一篇文章,同时也说一下链接的时效性吧. 首先,外链所在页面被删除了,外链是否有效? 答案外链所在页面删除了依然是有效.证据如下:   我在博客中国的博客(可能是因为流量超标在2006年被删除了)早就已经被删了,但是百度依然有快照.今天看了下首页的快照

通过网站日志来寻找百度蜘蛛爬行规律

中介交易 SEO诊断 淘宝客 云主机 技术大厅 对于各位站长来说,百度的收录是关心的重中之重,因为网站大部分流量都来自百度. 因此,了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的. 很多网站目前使用的都是虚拟空间,都能够提供日志.从虚拟主机后台登录,点击下载访问日志. 日志是指在网站根目录下的logfiles或W3SVC文件夹里面日期.txt文本文件 更多的是类似我的网站建站学习网www.3915.net的日志格式,如下: 开始几行: #Software: Microsoft Lo

通过IP地址看网站日志寻找百度蜘蛛爬行规律

对于各位站长来说,百度的收录是关心的重中之重.了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的.很多网站目前使用的都是虚拟空间,都能够提供日志. 日志是指在网站根目录下的logfiles文件夹里面日期.txt文本文件有很多介绍通过http查看返回命令的那种办法来查看蜘蛛,这里就不介绍了. 现在更多的网站是没有提供可以通过软件来查看的日志格式. 更多的是类似下面的日志格式,如下: 03:28:34 GET /goods.php 202.108.7.205 200 34696 390 第

如何通过网站日志来寻找蜘蛛爬行规律

对于各位站长来说,百度的收录是关心的重中之重.了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的.很多网站目前使用的都是虚拟空间,都能够提供日志.日志是指在网站根目录下的logfiles文件夹里面日期.txt文本文件有很多介绍通过http查看返回命令的那种办法来查看蜘蛛,这里就不介绍了.现在更多的网站是没有提供可以通过软件来查看的日志格式.更多的是类似下面的日志格式,如下: 03:28:34 GET /goods.php 202.108.7.205 200 34696 390 第一 0

搜索引擎蜘蛛是如何抓取链接的

摘要: 搜索引擎蜘蛛,对于我们来说非常神秘,本文的配图使用蜘蛛侠的原因就在于此.当然我们也不是百度的也不是Google的,所以只能说探秘,而不是揭秘.本文内容比较简单,只是给不知 搜索引擎蜘蛛,对于我们来说非常神秘,本文的配图使用蜘蛛侠的原因就在于此.当然我们也不是百度的也不是Google的,所以只能说探秘,而不是揭秘.本文内容比较简单,只是给不知道的朋友一个分享的途径,高手和牛人请绕行吧. 传统意义上,我们感觉搜索引擎蜘蛛(spider)爬行,应该类似于真正的蜘蛛在蜘蛛网上爬行.也就是比如百度

从IIS日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容

经常有站长抱怨高权重网站采集了自己辛辛苦苦的原创内容,导致自己的原创变成其他网站的了,今天我通过实例和大家分享如何解决这个问题. 大家可以想象一下现实生活中知识产权的认定,最简单的情况,如果A在杂志上发表了一篇原创文章,B看到后不加改变的抄袭并发表到其他杂志,A要起诉B者,法院很容易根据作品发表时间来判断B抄袭了A,因为A发表作品在先(如果B经过修改等二次加工手段再发表,那就要依据法院的鉴别和双方的证据了),回到网络世界,特别是回到由百度制定规则来判别谁是原创的体系中,假定百度已判定发表于两个不

快速培养蜘蛛爬行习惯的独门秘诀

现在有很多朋友都在问:为什么我的网站收录总是不好,而且快照总是不更新,网站及没有被K也没有做黑帽,而且每天网站都有更新,最后收录效果还是那么差,这是为什么?其实这个问题不只一两个人的问题,我敢说做SEO的朋友们都有过同样的问题,并且有的朋友也不知道自己到底哪里做错了,自己的网站收录就是上不去,其实这个问题归根结底可以用六个字来概述:"蜘蛛爬行习惯",有的朋友看到后就会感觉到纳闷?什么是蜘蛛爬行习惯?蜘蛛的爬行习惯有什么好处呢?其实蜘蛛爬行习惯直接影响着网站的收录.网站权重及网站的排名,

让搜索引擎的蜘蛛更好的抓取我们的网站

搜索引擎的蜘蛛是靠爬行来抓取互联网上的信息,也就是说要想被百度或是谷歌等搜索引擎收录,一般情况下是要有链接存在,让搜索引擎的蜘蛛程序顺着链接爬到网站里,蜘蛛来过了,才能有效的抓取.给了让搜索引擎更好的抓取网站内容,我们通常要做的事情是: 第一,先准备好要被抓取的网页("食物") 站长通常都会说"喂饱蜘蛛",指的就是更新网站的内容,让小蜘蛛来了之后有"东西吃",可以抓取到网页信息,而不是让它空手而归.搜索引擎的蜘蛛喜欢原创内容,所以我们为了提高网站

行业网站提升蜘蛛爬行的11种方法

中介交易 SEO诊断 淘宝客 云主机 技术大厅 讲方法之前提出2个WHY? NO1 为什么是行业网站 我想每一个站长都希望自己成为下一个马云,那为什么不做行业网站?做一个垃圾网站靠联盟广告在中国众多网站中很难存活,与其被K帐号后损失钱财和浪费大量的时间,不如更多的思考行业网站的运营模式,思考网站存活下来的商业价值 NO2 为什么说是提升做网站的都知道只要网站被收录了就表示蜘蛛来过,而提升蜘蛛爬行速度只是更好的吸引蜘蛛,蜘蛛爬行的频繁一定程度的会反应到页面收录量上,但是爬行的频繁不一定就表示你的站