大家都知道我们所建的网站,通过百度蜘蛛来抓取页面从而收录到搜索引擎里面去。但是大家应该不知道蜘蛛是通过什么原理来抓取你网站的内容的。可以说蜘蛛抓取页面分为以下4个工作原理
一深度优先抓取
什么是深度优先抓取呢?蜘蛛在你网站抓取这个页面的链接的时候会一直顺这这个链接去抓取。这个页面有链接顺着链接在抓取下个页面,下个页面有链接一直顺着抓取。直到全部抓取完毕。这个就是蜘蛛深度优先抓取的原理。
二宽度优先抓取
什么是宽度抓取呢?蜘蛛一个性先把你网站整个页面抓取一次,然后是在下一个页面的全部页抓取一次。这样的话。宽度抓取当中。我们网站的外链以及链接就不能太过多。如果太多的话,蜘蛛就很难抓取全部来收录。
三权重优先抓取
什么是权重优先抓取呢?一般的话蜘蛛都是将深度优先与宽度优选结合起来抓取。但是各自有各自的特点,一般你网站权重不错的话,蜘蛛就会采取深度优先来抓取。权重差点,相反蜘蛛就会采取宽度优先的抓取方式。那蜘蛛的怎么衡量该网站的权重呢。1是参考该网站的外链数量与质量,2网站的层次多少。什么是层次呢,层次是指网站的目录到页面有多少,如果目录多又存在外链杂乱等,那就是比较差劲的。相对来说层次整理有序的。更容易让蜘蛛抓取收录。
四重访抓取
什么是重访抓取呢?蜘蛛今天来抓取页面了明天又来抓取这些页面就是重访抓取。重访抓取可以分全部重访与单个重访。全部重访指的是整个网站蜘蛛都会重新抓取一次,单个重访指针对某个页面更新频率快的进行抓取,一般单个重访指的是一些大型网站更新频率快的不段有新文章出现,就会出去单个重访来抓取,那比如一个页面一个月也不更新一次,那么蜘蛛来了1天这样2天也这样,那么他就会隔断时间在来抓取。有时候会隔上一个月在全部重新抓取。所以许多站长问为什么百度好久没来抓取收录了。就是你没有经常更新。导致蜘蛛不来抓取。等到下次来的时候才会把你后面更新的文章全部放出来!
其实百度的算法策略也不时一直这样的,网络都是不断的进步。说不定那时又是以令一种方式来抓取页面。所以站长们有空就多更新网站的内容还让蜘蛛能常来访!