预处理相信大家都不会陌生,很多站长或者其它SEO资料中被称作“索引”。对于搜索引擎来说,索引是最重要的一个步骤,和网页的爬行抓取以及排名都有着直接的关系。搜索引擎抓取的页面并不能被用于排名,因为互联网上的数据是巨大的,所以当用户在搜索的时候不可能实时地从所有网页中进行检索并返回,而是从搜索引擎自己的数据库中返回给用户结果。这个数据库是事先经过处理的,所以就有预处理的说法。
预处理是大家看不到的,都是搜索引擎的后台程序完成,本从从九个方面和大家浅析关于预处理的各个阶段,希望站长们看了有个大概的了解,由于篇幅有限,今天就从三个方面先进行分享,如果有不对的地方,还请大家多指正。
第一、提取文字:现在的互联网资讯还是以文字为主,所以搜索引擎的重点还是文字,平时我们从网页上看到的包括很多图片、视频以及JS技术等都无法用户排名的内容。所以对于搜索引擎而言,首先要做的就是提取网页中的文字。除了一些body中常见的文字,还会提取包括Meta标签中的文字以及图片的ALT标签等等。另外一个就是锚文字,锚文字在网页排名中的作用非常重要。
第二、中文分词:分词其实对于Google而言也存在,不过通常讲的都是中文分词。对于英文而言,只需要根据单词进行拆分就行,而中文的情况往往比英文要复杂的多,所以对于中文搜索引擎,特别是百度,要考虑中国用户的使用情况,所以对待分词上也有自己独特的地方。在网站优化上,我们对于分词能做的很少,只能加粗或者利用H标签等告诉搜索引擎哪些字连在一起是属于一个词。
第三、消除停止词:现实生活中我们时常会带有一些感叹词或者助词来表达语义,互联网上同样也是如此,无论是中文还是英文,都会存在一些出现频率很高,但对内容没有实质影响的词。常见的有“的”“得”“地”等助词,也有“啊”“哈”“呀”之类的感叹词,还会有“却”、“以”之类的副词以及介词。在搜索引擎中,这些没有实质性的词语统称为停止词。搜索引擎在抓取网页时会去掉这些停止词,从而使主题更加突出,也会减少大量的计算。
第四、噪声消除:大家可能不理解什么叫噪声,在互联网中,噪声指的是对网站的主题没有实质性帮助的页面元素,比如很多版权声明文字、导航条还有广告内容。很多博客中的文章分类页面、历史归档页面都属于噪声元素。互联网的内容是巨量的,所以,搜索引擎不可能把这些无实质性的内容都一一抓取并且索引,会在抓取时先消噪,他会根据HTML页面中的标签来进行区域区分,把剩下的主体内容进行抓取。从这一点上来看,我们应该尽量展现足够多的文字内容提供给搜索引擎而不是其它因素。
到这里,通过提取文字、中文分词、消除停止词、噪声消除等四个方面和大家分享了搜索引擎的预处理,这里只是给大家简单的罗列了以下,其实情况要复杂的多,细节性的东西也更多。这里只是抛砖引玉,希望有更多的深入了解的朋友也进行分享,让大家共同进步。搜索引擎的预处理总共有九个阶段,本文先总结其中前四个,剩下的五个以后会继续和大家分享。
好了,本文就到这里,大家有好的想法欢迎和我交流,本文来自:深圳网站建设,网址:http://www.zijiren.net,如果有不对的地方,还欢迎指正,也欢迎大家转载,转载请保留链接,谢谢!