新手SEO是为了什么,也就是为了有一个好的排名,除了大型网站可以依靠长尾带来巨大的流量,一般的新站长能用SEO得到一个稳定的关键词排名,就能带来稳定的流量,网上SEO的文章多如牛毛,但自己也要有系统学习的流程,想得到好的排名,就要知道搜索引擎工作原理大致是怎么样的,详细的工作原理你就不用管了,据说全世界也没几个,废话不多说,进入正题。
搜索引擎的工作原理是非常复杂的,前面就提过真正懂的全世界也没几个,但我们只要知道一些皮毛就够用了。搜索引擎的工作过程可以分为三个阶段。
一.爬行和抓取
这个大家都应该知道,就是搜索引擎的蜘蛛通过爬行链接访问网页,然后抓取页面的HTML代码存到服务器的数据库中。
二.预处理
这个是排名前的一个处理过程,索引程序对蜘蛛抓取来的页面数据进行文字提取,然后分词,索引等处理。
三.排名
当你在搜索框中输入你想查询的关键词时,排名程序调用索引库数据,计算相关性,然后生成搜索结果页面,到这里你就可以看到你搜索的结果了。
看似简单的三个阶段,其实每一步的算法都是及其复杂的。今天先讲一下爬行和抓取:
爬行和抓取是搜索引擎工作的第一步,完成数据的收集任务。
为了抓取网上的内容,蜘蛛会跟踪页面上的链接,从一个页面爬到另一个页面,就跟蜘蛛在网上爬行是一样的,这就是蜘蛛这名字的来由。
蜘蛛爬行方法有两种,第一种是深度优先,第二种是广度优先。深度优先是指蜘蛛沿着链接一直向前爬行,直到前面没有链接,然后返回到第一个页面,沿着另一个链接再爬下去。
广度优化是指蜘蛛在一个页面上发现了多外链接,不是顺着一个链接向前爬行,而且把页面上的所有第一层的链接全爬一遍,然后再去爬第二层。
事实上这两种方法是混合使用的,这样理论上是能够爬完整个互联网,但由于资源,时间的限制,往往只能爬行抓取一小部分,所以吸引蜘蛛是SEO必做的功课。所以我必要讲一下哪一些页面蜘蛛会去抓取或者抓取的概率高。
1.与首页点击距离近,一般来说网站的首页权重是最高的,所以蜘蛛访问首页的频率最高,所以距离首页距离近的被抓取的概率高。
2.页面更新快,蜘蛛每次爬行都会被数据存起来,如果第二次爬行没有变化的话,说明没有更新,蜘蛛就认为这页面没有必要经常抓取,如果你更新快的话,蜘蛛就会更新过来,这里说一点啊,在我以前我在A5发过的文章中也提过,就是更新最好有个时间表,每天固定时间更新,我贴上文章链接有兴趣的可以看下http://www.admin5.com/article/20100112/204187.shtml 。
3.就是多去权重高的网站发点链接,这样同样也会提高被抓取的概率。
还有一个要说的就是地址库,这里只是简单的说下,地址库主要就是防止重复爬行和抓取网址。今天就写到这里,明天会写有关预处理和排名的部分。本文由张家港弯管机 http://www.zjgjixie.com站长撰稿,转载请留链接。另需相关企业类,机械类网站做友情链接,有的请加QQ:26043721