何涛:从搜索引擎工作原理折射出的SEO知识(中)

  在前面一篇文章里(搜索引擎工作原理折射SEO知识上)有说到搜索引擎的工作原理的前部分也就是如何通过蛛蛛来抓取网络信息的问题。从中我们也了解到,蛛蛛的一些习性与SEO的一些操作小技巧。在今天的文章中我们会看到更多的有关于搜索引擎的内容,好了废话就不多说了。

  我们都知道蛛蛛它毕竟还只是个程序而已,他做的工作不会通过网站的前台来分析一个网站内容,而是通过网站的代码来进行抓取信息的。而在网站的源代码里我们会看到好多html、js等一些程序的语句。而蛛蛛他只会对里面的文章感兴趣,也就是说他只提取网页里的一些文字。有些朋友可能就会说到了,那我们还写什么代码?代码不是起不到作用了吗?

  其实不是这样的,在网站的标签优化中我们都知道比如H标签、nofollow标签、alt标签等。这些标签还是能在蛛蛛抓取我们网站信息的时候起到强调与修饰作用。比如遇到图片的时候,但蛛蛛并不能识别图片里的信息,那么我们就会考虑去设置一下 alt标签来帮助搜索引擎来识别图片里的信息;为了让网站的一些权重不分散,我们在必要地方给链接加上了nofollow。

  既然搜索引擎蛛蛛是对网站文字特别感兴趣,那对于中文SEO优化来说。是不是会有个概念性的东西在这里面,那就是“分词”

  最简单的一个例子,比如我们中文里面的“网站优化”这四个词,在百度搜索引擎数据词库里,其实是把网站与优化两个不同的词分开来存放的。当用户来搜索网站优化这个词的时候,搜索引擎的步骤也就是把网站这个词库里的网页信息与优化词库里的信息做一个交集来检索与排名。这点后面还会有说到。

  在说到分词的时候我们不得不提一个东西,那就是我们如何来看网站一个分词情况:在百度搜索引擎里面搜索“宁波何涛SEO”在出面的搜索结果里面,我们看下网站的那个快照如图

  


  我们是不是很容易的看到在快照里的显示结果百度把这个词分成了三块不同背景色的词组。这个只是其一,我们也可以在百度的搜索结果里看到只要是我们搜索的词,都会有标红的情况。这个也是分词的另一种表现形式。

  有些朋友可能会说了,你说的那些是个别情况,我们在现实过程去搜索的词远远比这个复杂,而且可能还会有一些语气助词等。做为越来越完善的搜索引擎而言。他们其实也早就考虑到了这个问题,首先是因为这些个语气词在搜索过程中实际上是起不到任何作用的。在搜索引擎进行预处理的时候,他们也会把这些词给过滤。一方面是减少检索负担,另一方面也是为了增加内容的准确度。

  在搜索引擎把蛛蛛抓取来的信息进行归档之前,还有个程度是必不可少的,他必须得做内容的重复审核。一重意思:搜索引擎必须把同一个网站里的数据进行删选。有一种情况:比如有人在搜索我的网站宁波SEO的时候,在排名结果中第一页会出现我们的首页与内容页的可能性。其实做为一个成熟的搜索引擎来说,这种情况是要避免的。因为这样的内容对用户的用处不大,就相当于同一个内容给排了两次。第二重:对于不同的网站而言,因为网络上的内容那是成千上万的。这里面就会出现两个不同的网站,但内容相同的情况。就是我们常说的网站内容转载的问题,搜索引擎也会考虑到重复的信息进行删选。

  有了上几步的重重审核,接下来的就是得做个有效的数据整理。我列两张表给大家看下就明白了:

  正向索引

  我简单的解释一下上面的表格里的意思:正向索引表格,也就是搜索引擎临时不能直接用于排名的数据表。这个里面他是按照文件来分配每个关键词的。也就是说主键是文件。我们再换到第二张表来看,搜索引擎已经把关键词做为了主键,这也与我们搜索某个关键词来找自己想要的信息一样。我们可以发现:当用户搜索关键词7的时候,这个时候搜索引擎就没有必要对每篇内容再进行检索,它只要做的就是从关键词的词库里面提取出文件1,文件2,文件8等。

  至少这几个文件又是如何来排名的,这个也是下次我会写出来的,感谢大家花时间来看我的文章整理。

  文章摘自何涛SEO博客:http://www.nb-seoer.com/post/154.html

时间: 2024-08-26 04:40:32

何涛:从搜索引擎工作原理折射出的SEO知识(中)的相关文章

何涛:从搜索引擎工作原理折射出的SEO知识(下)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 在搜索引擎工作原理的最后一篇文章里就应该提下搜索引擎的排名了.通过蛛蛛在网络上的信息抓取到存储,其实还是为了最终用户搜索某个关键词搜索引擎能提供他真正想要的内容. 在用户搜索某个词的时候,搜索引擎做的第一件事还是要对我们的词进行必要的分词,这个也是前面的文章里有提到的,这里面的原理还是一样.但在排名时的处理中,搜索引擎会先进行一个交集的处理,

SEO新手必看 搜索引擎工作原理之二

搜索引擎工作原理的三个阶段: 1.爬行和抓取 2.预处理 3.排名 前天在A5上发过搜索引擎工作原理之爬行与抓取http://www.admin5.com/article/20110630/356286.shtml,有兴趣的可以去看下,现在接下去讲预处理,搜索引擎通过爬行和抓取以后存入数据库的原始页面,并不能直接用于查询排名处理.你可想像搜索引擎收录了多少的页面,如果等用户输入关键字再去进行运算排名,这显然是不现实的,所以这些页面就先经过预处理,这样在用户输入关键词时,排名程序就调用数据库里已经

搜索引擎工作原理之排名大揭秘

不少SEO-er都应该了解搜索引擎工作原理繁多复杂,大致一般分为三大步奏:爬行和抓取,建立索引和排名.当然SEO-er优化网站,目的在于提高关键词排名,增加产品曝光率.为此SEO-er们更加看重排名这一环节,笔者在此对搜索引擎工作原理之排名做个小小的经验之谈. 搜索引擎面对的用户大部分是通过键入关键词返回一个列表页面,这个结构页面是大量的搜索索引库而建立起来的.当然这里这个页面是指自然搜索结果.那么搜索引擎是如何完成排名这以环节的呢?我们无妨看看整体思维图.   一.对提交的搜索请求分析 搜索用

SEO新手必看 搜索引擎工作原理之一

新手SEO是为了什么,也就是为了有一个好的排名,除了大型网站可以依靠长尾带来巨大的流量,一般的新站长能用SEO得到一个稳定的关键词排名,就能带来稳定的流量,网上SEO的文章多如牛毛,但自己也要有系统学习的流程,想得到好的排名,就要知道搜索引擎工作原理大致是怎么样的,详细的工作原理你就不用管了,据说全世界也没几个,废话不多说,进入正题. 搜索引擎的工作原理是非常复杂的,前面就提过真正懂的全世界也没几个,但我们只要知道一些皮毛就够用了.搜索引擎的工作过程可以分为三个阶段. 一.爬行和抓取 这个大家都

肖玉强:图解搜索引擎工作原理

  做SEO的,如果不懂搜索引擎的工作原理是很难恰当开展工作的.前几天给学生讲SEO课程中的搜索引擎工作原理时,很多同学表示不太懂.后来我画了搜索引擎主要工作流程的示意图给大家,很多同学表示"懂了". 我们先来看搜索引擎的主要工作:页面收录.页面分析.页面排序及关键字查询.搜索引擎的工作流程是:页面收录--页面分析--页面排序--关键字查询. 一.搜索引擎工作原理--页面收录   搜索引擎工作原理示意图--页面收录流程 页面收录的最终目的是将网站上的内容加入到URL列表,积累URL资源

百度搜索引擎工作原理分析

在正式学习SEO之前,你还需要学习一下搜索引擎的工作原理,毕竟SEO是针对搜索引擎进行操作的,那么弄明白搜索引擎的工作原理,那么遇到一些问题的时候,你就可以知道问题产生的原因了.一个搜索引擎,一般由下面几个模块组成: 1.抓取模块 2.过滤模块 3.收录模块 4.排序模块 抓取模块 搜索引擎在运作的时候,第一个工作就是要去互联网上面抓取页面,而实现这个工作的模块,我们称为抓取模块.学习抓取模块,我们需要先了解下面几个知识点:1.搜索引擎抓取程序:蜘蛛 搜索引擎为了可以自动抓取互联网上面数以万计的

搜索引擎工作原理-体系结构

今天福建seo要和大家分享的是搜索引擎的体系结构,搜索引擎是一个很庞大的系统,由许多的部分组成,按模块来分的话,可以分成蜘蛛.调度器.网页数据库.网页分析模块.索引器等等,按过程来分的话可以分为网页搜集.预处理.查询服务.那么这个系统的结构是什么样的呢?本节福建seo可以给大家一点介绍: 图中的每个节点都是我们需要去了解的部分,他们各当其职,以保证搜索引擎能够正常的工作,因为用文字来说明的话需要很大的篇幅,先在这边简单说一下,后续会很详细的讲解 总结 要想了解搜索引擎的原理,就必项对搜索引擎的体

JavaScript mapreduce工作原理简析_基础知识

谷歌在2003到2006年间连续发表了三篇非常有影响力的文章,分别是2003年在SOSP上发布的GFS,2004年在OSDI上发布的MapReduce,以及2006年在OSDI上发布的BigTable.GFS是文件系统相关的,其对后来的分布式文件系统设计具有指导意义:MapReduce是一种并行计算的编程模型,用于作业调度:BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS.Chubby.SSTable等Google技术之上.相当多的Google应用使用了这三种技术,比如Go

浅谈搜索引擎的工作原理及未来算法调整方向

在A5站长网上摸爬滚打了多年了,期间也写了好几篇的文章,其中有一篇<浅谈地方汽车门户网站运营的四个问题>还被推荐到了首页,我发给我们的朋友看的时候,大家对我这个曾经的菜鸟也开始刮目相看了,这让我本人在这段时间身心都愉悦的很,现在又忍不住在A5上发表一下我对搜索引擎工作原理及算法上的认识,可能比较的浅陋,但是有了想法,不吐还是不快的! 做网站SEO是一个非常枯燥的过程,很多人估计除了吃饭睡觉剩下来的时间就奉献给了电脑了,这样怎么能够把身体搞好呢?这不现在每天爬六楼都累得不行,这对于一个大小伙子实