搜索引擎工作原理的三个阶段:
1.爬行和抓取
2.预处理
3.排名
前天在A5上发过搜索引擎工作原理之爬行与抓取http://www.admin5.com/article/20110630/356286.shtml,有兴趣的可以去看下,现在接下去讲预处理,搜索引擎通过爬行和抓取以后存入数据库的原始页面,并不能直接用于查询排名处理。你可想像搜索引擎收录了多少的页面,如果等用户输入关键字再去进行运算排名,这显然是不现实的,所以这些页面就先经过预处理,这样在用户输入关键词时,排名程序就调用数据库里已经经过预处理的数据,然后计算排名并显示给用户看。
我们以百度为例,搜索引擎会提取网页文件中的文字内容,然后根据这个内容进行中文分词,比如“弯管机价格”,将被分为“弯管” “弯管机” “价格”这三个词,看到这里你就会明白为什么我以前在文章中提到不要进行关键词堆积,因为堆积会有被认为作弊,不堆积也可以达到差不多的效果,所以说了解搜索引擎工作原理是非常重要的。
中文中常有一些词出现在频率非常高,但实际上对内容没有任何影响,比如“的”“地”“得”“啊”“呀”之类的,这些词被称为停止词,搜索引擎去去些停止词,使主题更加突出。还有就是比如网站都会有的版权信息,广告之类的东西,这个一般也会去掉。在这些之后,搜索引擎还会去页面进行去重,就是同一篇文章经常会重复出现在不同网站,会删除重复内容。这点不是绝对的,因为种种原因,重复内容还是会存在,但我们最好还是坚持原创,至少得伪原创,这里说一下,所谓的伪原创应该怎么做,先继续说完去重之点,之后你就会明白应该怎么去做伪原创,去重的基本方法是对页面特征关健词进行计算,也就是对页面主体内容中选取最具有代表性的一部分关键词,这部分关键词经常是出现频率最高的关键词,一般会选取十个左右,所以你简单的改个段首,改变段落顺序也不能使文章变为原创,所以关键是改变关键词,比如文中的关键词是计算机,你就改成电脑,总之把出现频率最高的的关键词替换掉,这样才有可能达到原创的结果。
经过以上步骤,搜索引擎提取页面上的关键词,按照分词程序划分好的词,把页面转换成一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率,位置等等,这样,每个页面就被记录成一串关键词集合。然后再按关键词进行排列,每个关键词对应一系列的页面,当用户搜索这个关键词时,排序程序就找到这个关键词,然后就可以看到有这个关键词的所有的页面了。
还有补充的一点就是链接关系,页面上有哪些链接指向哪些页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。这个要讲起来得花很多的时间,以后如果有空的话我再单独写一下。
明天有空的话会写排名原理,今天还有好多事要做,本文由张家港弯管机 http://www.zjgjixie.com站长撰稿,转载请留链接。另需相关企业类,机械类网站做友情链接,有的请加QQ:26043721