站长从九个方面浅析搜索引擎预处理(一)

  预处理相信大家都不会陌生,很多站长或者其它SEO资料中被称作“索引”。对于搜索引擎来说,索引是最重要的一个步骤,和网页的爬行抓取以及排名都有着直接的关系。搜索引擎抓取的页面并不能被用于排名,因为互联网上的数据是巨大的,所以当用户在搜索的时候不可能实时地从所有网页中进行检索并返回,而是从搜索引擎自己的数据库中返回给用户结果。这个数据库是事先经过处理的,所以就有预处理的说法。

  预处理是大家看不到的,都是搜索引擎的后台程序完成,本从从九个方面和大家浅析关于预处理的各个阶段,希望站长们看了有个大概的了解,由于篇幅有限,今天就从三个方面先进行分享,如果有不对的地方,还请大家多指正。

  第一、提取文字:现在的互联网资讯还是以文字为主,所以搜索引擎的重点还是文字,平时我们从网页上看到的包括很多图片、视频以及JS技术等都无法用户排名的内容。所以对于搜索引擎而言,首先要做的就是提取网页中的文字。除了一些body中常见的文字,还会提取包括Meta标签中的文字以及图片的ALT标签等等。另外一个就是锚文字,锚文字在网页排名中的作用非常重要。

  第二、中文分词:分词其实对于Google而言也存在,不过通常讲的都是中文分词。对于英文而言,只需要根据单词进行拆分就行,而中文的情况往往比英文要复杂的多,所以对于中文搜索引擎,特别是百度,要考虑中国用户的使用情况,所以对待分词上也有自己独特的地方。在网站优化上,我们对于分词能做的很少,只能加粗或者利用H标签等告诉搜索引擎哪些字连在一起是属于一个词。

  第三、消除停止词:现实生活中我们时常会带有一些感叹词或者助词来表达语义,互联网上同样也是如此,无论是中文还是英文,都会存在一些出现频率很高,但对内容没有实质影响的词。常见的有“的”“得”“地”等助词,也有“啊”“哈”“呀”之类的感叹词,还会有“却”、“以”之类的副词以及介词。在搜索引擎中,这些没有实质性的词语统称为停止词。搜索引擎在抓取网页时会去掉这些停止词,从而使主题更加突出,也会减少大量的计算。

  第四、噪声消除:大家可能不理解什么叫噪声,在互联网中,噪声指的是对网站的主题没有实质性帮助的页面元素,比如很多版权声明文字、导航条还有广告内容。很多博客中的文章分类页面、历史归档页面都属于噪声元素。互联网的内容是巨量的,所以,搜索引擎不可能把这些无实质性的内容都一一抓取并且索引,会在抓取时先消噪,他会根据HTML页面中的标签来进行区域区分,把剩下的主体内容进行抓取。从这一点上来看,我们应该尽量展现足够多的文字内容提供给搜索引擎而不是其它因素。

  到这里,通过提取文字、中文分词、消除停止词、噪声消除等四个方面和大家分享了搜索引擎的预处理,这里只是给大家简单的罗列了以下,其实情况要复杂的多,细节性的东西也更多。这里只是抛砖引玉,希望有更多的深入了解的朋友也进行分享,让大家共同进步。搜索引擎的预处理总共有九个阶段,本文先总结其中前四个,剩下的五个以后会继续和大家分享。

  好了,本文就到这里,大家有好的想法欢迎和我交流,本文来自:深圳网站建设,网址:http://www.zijiren.net,如果有不对的地方,还欢迎指正,也欢迎大家转载,转载请保留链接,谢谢!

时间: 2024-11-01 15:45:11

站长从九个方面浅析搜索引擎预处理(一)的相关文章

A5营销探研站长们是否了解各大搜索引擎需求

近年来为了更好的营造互联网环境,各大搜索引擎对网站的优化的要求逐渐提高,对于站长们来说优化最终的目的是为了网站的用户,懂seo优化知识的站长到处可见,但是往往他们知道的只是理论的东西,是否有能真正的了解搜索引擎真正的需求是什么,站长们也需要像分析用户一样去分析搜索引擎. 2013年百度搜索引擎陆续更新绿萝算法.石榴算法.原创火星计划等,这些算法中都统一的强调到用户体验度,网站需要真心的为用户提供资源.在谷歌15周年庆典时,公布了谷歌"蜂鸟算法"这是三年来最大算法更新,蜂鸟算法能够以更加

周震宇:浅析搜索引擎关键词优化重点

中介交易 SEO诊断 淘宝客 云主机 技术大厅 一个做好的SEO站点,它的大部分流量来源是搜索引擎送来的.也就是说了,用户是通过在搜索引擎搜索相关关键词而来到你的网站的;所以我们说,一个网站的内容建设就是围绕着关键词而进行的;这就引出了今天的话题点-搜索引擎优化的核心是关键词 大家在做站前,一般都会已经构思好大概的网站规划,结构,以及关键词!关键词的选择其实很有深度,而非大家表面上看到的那样,随便几个相关的词语就行了.那是错误的.正确的关键词应该在相关的网站上查询其对应的热度,搜索量,优化难度等

网站排名浅析:搜索引擎更看重网页整体性

网站的排名会受到很多因素影响,这是大家众所周知的事情,由于现在互联网上网页比较多,链接关系也较复杂,所以搜索引擎的算法是包含众多因素的,并不会因为一个小小的因素就给予网页很好的排名或者严重的惩罚. 正是因为这个道理,许多问题就变得容易理解多了.很多朋友会拿着一个单独的原因而去解释整个现象,这是不符合逻辑的.因为搜索引擎给予网页好的排名并不是因为某个因素.所以今天和大家分享我的看法:搜索引擎对网页的排名是基于整体性的考虑.希望本文能让站长有所启发. 网页排名,依靠整体 我始终认为,搜索引擎给一个网

浅析搜索引擎的分析系统来做好网站优化

目前主流的搜索引擎按照其功能大致可以分为可划分为下载.分析.索引.查询4大系统.其中分析系统在搜索引擎的架构中主要承担了网页结构化.网页消重.文本分词及网页重要性的计算(例如谷歌的PR)这四项基本任务.可以说,搜索引擎的分析系统在网站排名等方面起着决定性的作用,通过分析搜索引擎的分析系统,可以更好的指导我们进行网站的优化工作,在这里,笔者根据自己的一些见解, 首先,笔者对搜索引擎的分析系统的工作步骤做了简单的介绍: 第一.读取Page库中下载系统通过爬虫下载到的原始网页. 第二.通过建立标签树并

武汉SEO:浅析搜索引擎的蜘蛛的工作方式

武汉seo今天想聊聊搜索引擎的蜘蛛的工作方式.先说说搜索引擎的原理吧.搜索引擎是把互联网上的网页内容存在自己的服务器上,当用户搜索某个词的时候,搜索引擎就会在自己的服务器上找相关的内容,这样就是说,只有保存在搜索引擎服务器上的网页才会被搜索到.哪些网页才能被保存到搜索引擎的服务器上呢?只有搜索引擎的网页抓取程序抓到的网页才会保存到搜索引擎的服务器上,这个网页抓取程序就是搜索引擎的蜘蛛.整个过程分为爬行和抓取. 一. 蜘蛛 搜索引擎用来爬行和访问网站页面的程序被称为蜘蛛,也可称之为机器人.蜘蛛访问

老站长交你如何避免被搜索引擎降权

       在我们给自己网站做优化的时候,最怕遇到的问题无疑就是降权.被K等一系列惩罚的问题,在这些里面特别是降权.被K两种,恢复工作是相当的不易的,那么这时候许多站长就会想问了如何可以让网站避免被搜索引擎降权呢?今天笔者就针对此问题来与大家分享一些经验,希望对各位站长能有所帮助吧.       (一)稳定安全的服务器.        对于一个网站来讲,服务器的稳定性与安全性无疑是至关重要的条件之首.一般对于服务器的好坏判断来讲分为以下几个方面:首先我们必须保证网站可以正常的进入,方便用户的游

浅析搜索引擎营销需要怎么做?

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 搜索引擎营销(SEM)是个广义的概念,不过也是我们做SEO的终极目标.如果我们只是为了SEO而SEO,那么我们所做的工作则不会有太大的价值,因为技术只是手段,营销才是我们的最终目的. 搜索引擎营销(SEM)包含了很多方面,大家都知道SEM追求的是最高性价比,即以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值.只有产生了价值,我们做的

五个方面浅析搜索引擎如何处理搜索词

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 搜索引擎其实也是WEB2.0的典范,因为需要处理用户输入了数据,所以能很好和用户产生交互.但对于搜索引擎而言,并不会把用户输入的所有词语都直接用于排名,而是首先会经过自己的处理,这次处理之后的词语才能直接用户排名.本文根据自己的总结和大家分享搜索引擎是如何处理我们输入的搜索词.如果不对的地方,也欢迎大家指正. 第一.首先分词:分词是一大特色,

一个新站长的九大网站推广技巧

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 我是一名新手,因为想通过网络赚钱关系接触了网络推广,也不知道网络推广是什么东西,还好有搜索引擎,从百度,谷歌了解网络推广的含义,了解了什么是SEO,并着手开始做自己网站的推广工作,当然之前阅读了大量的前辈站长.seoer们的文章,根据自身的条件(不懂技术)只能用一些笨办法加上勤奋,终于有所成绩,跟大家分享一下我的推广经历: 1.开始当然是向搜