略析百度蜘蛛爬行

  这几天一直在搞网站和产品推广,不懂的东西很多很多,但推广的那些事中,很多名词都非常的吸引我。首先是SEO,了解SEO的过程中,碰到了“外部链接”,学习外部链接的时候又偶遇“蜘蛛爬行”,一下子接收了那么多信息,感觉相当神奇,SEO的事也的确不简单。

  而今天想跟大家谈谈“蜘蛛爬行”这个词。我相信我不是第一个提到它的,因为我是后来者,但我希望我的描述能让更多的人了解这个词,毕竟,很多专业的介绍都相当专业,正因为太专业,而让人觉得无法理解。

  首先,介绍一下百度收录。网络世界上有很多很多网站,网站中包含了许许多多的网页,不计其数,就像我们人一样,60多亿的人口。那么,有些人在世界上很有影响力的,比如成龙、李小龙、麦克杰逊等等,但像我们这些无名小卒,就那么的卑微了。对世界贡献大的,自然就出了名,那么我可以换句话来说,在网络上“有贡献”的,就会被百度收录,收录的是它的网络地址,被百度收录了,假如收录的威望很多,那你有可能出现在百度搜索的头条,而头条永远是备受关注,正因为这个位置谁都想争,随之便产生了SEO(搜索引擎优化)。

  然后,收录的内容统一放在一个库里,有条有序,而这个库在网络世界中有一个很好的名字“数据库”,至于数据库的原理我就不多说了,这里大家主要认识到它是以一定格式保存或者记录数据的东西,“蜘蛛爬行“就用到这个东东。再跟大家说一下“蜘蛛”,当然不是我们日常所见的蜘蛛,简单来说它是一个计算机程序,爬行的过程就是实现算法的过程(至于说法,不能简单地理解为日常的算术过程,它的意义相当于一个活动的策划流程),最近好像百度更改了搜索算法,但具体怎么改还是让大家慢慢去了解吧。

  “蜘蛛爬行”形象一点,有纵向爬行也有横向爬行,也就是我们计算机专业术语的深度遍历和广度遍历,而遍历的内容就是大大小小的网站或网页,遍历过后蜘蛛主动下载网页,然后将下载回来的网页通过各种程序计算过后才放到检索区,才会形成稳定的排名,然后被百度的收录到数据库里,最后显示在百度网页上。而在这里,百度派出的不止一个“蜘蛛”,而是多个,或者十个,或者百个、千个,更或者万个、几十万个,总之它的数目肯定不少,而派出蜘蛛在这里就是计算机术语:线程。显然多个蜘蛛就是多个线程,多线程执行搜索的效率才会高。多个“蜘蛛”一起搜索,就是一个广度上的搜索,一个“蜘蛛”顺着某一个规则走下去,就是一个深度搜索。而网页的搜索深度优先和广度优先,百度蜘蛛抓页面的时候从起始站点(即 种子站点指的是一些门户站点)是广度优先抓取是为了抓取更多的网址,深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,百度蜘 蛛只负责抓取,权重优先是指反向连接较多的页面的优先抓取,这也是调度的一种策略,一般情况下网页抓取抓到40%是正常范围,60%算很好,100%是不可能的,当然抓取的越多越好。我在学习了解的过程中,偶遇了一篇介绍蜘蛛爬行的安全性的文章,里面介绍到了蜘蛛一般会优先选择遍历那些网站,会自动躲开那些网络漏洞,免得自己陷进去,这个挺吸引我的,弱弱记得这篇文章里介绍说:优先遍历静态网站,因为动态网站里可能存在死循环,这样蜘蛛进去就出不来了,不过一般蜘蛛搜索的过程会先检测网站的安全性,发现这些毁灭性的动作,就会避开。我想这点值得大家考虑一下在建立动态网站的过程中,一定要严谨自己的程序代码,免得造成网站漏洞,最后没有蜘蛛敢进去。

  今天就介绍到这里,很多不到之处,望各位多多指正!转载请带上:亚洲陶瓷商城:www.asiachinachina.com

时间: 2024-10-30 05:01:51

略析百度蜘蛛爬行的相关文章

最新详细的百度蜘蛛爬行检测代码诠释

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 最近在网上看了篇有关百度蜘蛛的爬行代码的解释,发现和现在的爬行有些改变,已至于开始时看我的小游戏站www.zz.la这个站的日志看不懂 是什么意思,经过多次研究终于明白其中,所以今重新整理解释如下: 做seo的朋友都知道,研究se爬行规律对于网站优化意义重大,特别是对百度蜘蛛Baiduspider的研究.本文解释一下百度蜘蛛爬行后返回代码 代

百度蜘蛛爬行IIS返回200 0 64终极合理解释

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 做网站之初就在A5论坛发现有人说关于蜘蛛爬行IIS返回200 0 64信息的相关文章,当时对这个根本不懂,所以没有去具体了解,直到08年底我才开对这个64有点想直到的欲望,所以也在网上找了不少这方面的文章来看,自己也一直分析其中的奥妙,截止11年6月22日凌晨4点左右,终于有了自己的结论,下面和大家分享: 首先分析一下网络上的一些说法: 1.

通过IP地址看网站日志寻找百度蜘蛛爬行规律

对于各位站长来说,百度的收录是关心的重中之重.了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的.很多网站目前使用的都是虚拟空间,都能够提供日志. 日志是指在网站根目录下的logfiles文件夹里面日期.txt文本文件有很多介绍通过http查看返回命令的那种办法来查看蜘蛛,这里就不介绍了. 现在更多的网站是没有提供可以通过软件来查看的日志格式. 更多的是类似下面的日志格式,如下: 03:28:34 GET /goods.php 202.108.7.205 200 34696 390 第

通过网站日志来寻找百度蜘蛛爬行规律

中介交易 SEO诊断 淘宝客 云主机 技术大厅 对于各位站长来说,百度的收录是关心的重中之重,因为网站大部分流量都来自百度. 因此,了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的. 很多网站目前使用的都是虚拟空间,都能够提供日志.从虚拟主机后台登录,点击下载访问日志. 日志是指在网站根目录下的logfiles或W3SVC文件夹里面日期.txt文本文件 更多的是类似我的网站建站学习网www.3915.net的日志格式,如下: 开始几行: #Software: Microsoft Lo

从IIS日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容

经常有站长抱怨高权重网站采集了自己辛辛苦苦的原创内容,导致自己的原创变成其他网站的了,今天我通过实例和大家分享如何解决这个问题. 大家可以想象一下现实生活中知识产权的认定,最简单的情况,如果A在杂志上发表了一篇原创文章,B看到后不加改变的抄袭并发表到其他杂志,A要起诉B者,法院很容易根据作品发表时间来判断B抄袭了A,因为A发表作品在先(如果B经过修改等二次加工手段再发表,那就要依据法院的鉴别和双方的证据了),回到网络世界,特别是回到由百度制定规则来判别谁是原创的体系中,假定百度已判定发表于两个不

网站排名为什么下滑与把握百度蜘蛛的粘性度

主观原因:其一:努力不够 搜索引擎的排名是对各种与排名相关因素综合起来的一个结果,需要在方方面面加强努力,犹如逆水行舟,不进则退.这个时候我们也经常听到这样一句话,我们很无奈,我们已经在努力做.可当你在努力的时候,别人在拼命.当然结果不一样. 其二:方法不对 百度的算法更新后,就不要老按以前的方法去操作,而应尽快按照新的游戏规则来优化.就算百度是个老虎,只要你顺着毛摸它也不会惹你. 其三:不能坚持,急功近利 搜索引擎的排名不是一天积累起来的,而是长期积累的,做seo的人都需要有耐心,能坚持.毕竟

百度蜘蛛解决内页收录难的问题

摘要: 网站内页收录也是衡量一个网站优化是不是达到合格水平的重要指标,如果一个网站的内页收录情况不理想,那么即使其主页排名到达了首页,流量也是寥寥无几的.但是收录内页的难 网站内页收录也是衡量一个网站优化是不是达到合格水平的重要指标,如果一个网站的内页收录情况不理想,那么即使其主页排名到达了首页,流量也是寥寥无几的.但是收录内页的难度往往要比收录首页高很多,如果网站的细节做得不够好,网站的内页收录是非常艰难的. 当各位seoer还在苦恼你的网站内页为什么那么难收录的时候,可曾想到过,我们的收录的

百度蜘蛛机器人爬行量与收录量的关系

大家一定都知道,百度蜘蛛机器人来爬行你网站的数量,远远大于收录量,那么它们之间到底有什么联系,今天我们就来谈谈. 一.初试期 我在这点说的初试期,指的是网站开通到给百度收录提交过后的一个星期,在这一个星期内,百度蜘蛛机人的活动方式是这样的,首先百度机器人会来爬行的提交网站的首页,然后过一会,在根据它分析的结果,有可能是一天或几分钟过后就在次来爬行,你首页上的其它页面.当然在这个阶段,机器人爬行首页次数会非常少,有可能一天只有几次爬行首页,主要是因为你网站上有很多链接,它得一个一个的爬.机器人的爬

证据表明百度蜘蛛可以爬行纯文本网址

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 很久之前我写过文本格式的网址对网站的权重有好处,今天我终于发现了纯文本网址可以吸引百度蜘蛛的证据. 大家知道百度站长平台已经对站长开放了,其中有很多有用的功能,包括提交网站地图.提交死链接.查看robots等等.其中有一项功能大家可能没有太注意,那就是站点抓取异常查询. 8630.html">有时候我们的网站收录或者其他方面出