做网站请分析百度的分词技术

  百度自称是全球最大中文搜索引擎,最了解国内网民的搜索习惯,做为中国搜索引擎的老大,很多人草根站长一直在研究的它的搜索技术和排名算法,还有不少站长兄弟姐姐还要靠它的流量吃饭,为此1781.html">草根网站的站长们对它是又爱又恨,百度能带来很大的流量,又会无情的K站或降权。

  好的,那咱们说说百度的分词技术,可能小弟有说的不对地方,请大家拍砖头,希望大家共同进步。没有研究百度分词前不明白百度为什么比google强大.其实分词也就是切词,百度是否拿来一句中文字符串拿来随便切一下呢,当然不会。那么怎么才满足被切割的条件呢?通过下面的实验就会发现如果字符串只包含小于等于3个中文字符的话,那就保留不动,比如:"牵引器"这个词,前提是一个完整的词,百度是不会切分的,当字符串长度大于4个中文字符的时候,百度的分词程序就会启动了。例如"牵引器价格",看看返回结果中标为红字的地方,不难看出来,查询已经被切割成“牵引器”,“价格”两个单词了,再试着换一个词。例如:我们来看"衡水牵引器",百度里提交查询一下,发现标红的关键字都是每一个是"牵引器","衡水",连续出现的情况,可以看到将"牵引器"与"衡水"切分成两个词,如果我们搜"衡水助康医疗器械"呢,发现标题是没有,网页内容比较完整是"衡水助康医疗器械http://www.hshuoyun.cn",可能是这个网站还没收录的原故,这个长尾词被切成了"衡水"/"康医疗器械".

  那现我们在来研究一下百度是分词算法,通过几年的发展,百度的分词算法已经算是相当成熟了,这其中也少不了SEOER 的功劳,有一位SEOER的前辈说过:"百度的算法有简单的有复杂的,有正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。“让我们总结一下吧,这里面也有我个人的猜测, 百度拥有一个强大的词汇数据库,里面有我们通用所用的各种词语比如"人名,地名,产品的名称",举个例子"王元哲","衡水","牵引器",这些都是词库中有的,在切词时将专有名称切出,如"助康"这个词,词库中没有,下面的采用双向最大匹配分词算法,假如正向和反向匹配分词结果一致当然最好,就可直接输出即可;如果两者不一致,正向匹配一种结果,反向匹配一种结果.

  百度一直自称是全球最大中文搜索引擎,但分词技术也并无特殊,也许就是因为百度拥有一个超大的专用专用词典,这个专用词典登录了人名(比如压滤机),厂家名称(比如压滤机生产厂),部分地名(比如阜城等),网址(http://www.fxylj.com/),并且这个词典在不断的扩充一些新词,一些新词不断的被收录,这就比google强大的一个方面,google在于分词来说,及词库明显比不上百度,这正google本身要加强的地方.

  以上只是个人看法,有空来我的小站转转: www.hshuoyun.cn  ,转载请注明出处.

时间: 2024-07-29 06:56:14

做网站请分析百度的分词技术的相关文章

清楚百度的分词技术 做站长需要掌握

中文分词技术属于自然语言http://www.aliyun.com/zixun/aggregation/20795.html">处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法. 现有的分词算法可分为三大类:基于字符串匹配的分词方法.基于理解的分词方法和基于统计的分词方法. 1.基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条

百度中文分词技术的一点小猜测

大家都知道,百度的中文分词技术比GOOGLE做的好,以下引用网络上找到的一张图片说明:   从上图可以推断出,百度遇到一个关键字,应该是先不进行分词,而是先检索百度百科的词条和百度指数有指数的中文词进行匹配,无法精确匹配的话,再进行分词,前两年在百度搜索关键字"利川新闻网"时,被分为利川/新闻/网,自从这个关键字有指数以后,百度会把它当做一个完整的关键词. 当然,百度的分词技术肯定比我个人推断出来的要复杂的多,作为百度旗下的产品,百度不会放弃自己的资源,肯定会参考百度百科的词条作为分词

通过分析百度分词技术实现SEO优化的技巧

笔者之前做过分词算法的测试员,其实分词技术并不是百度的强项,而是通过第三方的分词技术应用于自己是网站搜索上的,分词主要是通过对实词和虚词的分割,找到对用户来说有用的词这些词往往就被称作关键词,通过对分词技术的了解,让我们能够有效的提升网站关键词的指定,同时也有助于提升网站的排名! 通常分词算法是针对百度而言的,谷歌因为对分词技术不敏感,所以在中文搜索市场上,百度一直是领导者,返回的结果往往对用户更加的有用,所以我们做网站优化如果主要针对的是中文群体,那么了解百度的分词技术是非常必要的!下面我们就

做网站要主要的百度分词技术_网站应用

百度自称是全球最大中文搜索引擎,最了解国内网民的搜索习惯,做为中国搜索引擎的老大,很多草根站长一直在研究的它的搜索技术和排名算法,还有不少站长兄弟姐姐还要靠它的流量吃饭,为此草根网站的站长们对它是又爱又恨,百度能带来很大的流量,又会无情的K站或降权.   好的,那咱们说说百度的分词技术,可能小弟有说的不对地方,请大家拍砖头,希望大家共同进步.没有研究百度分词前不明白百度为什么比google强大.其实分词也就是切词,百度是否拿来一句中文字符串拿来随便切一下呢,当然不会.那么怎么才满足被切割的条件呢

站长们一定要清楚的百度分词技术

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度自称是全球最大中文搜索引擎,最了解国内网民的搜索习惯,做为中国搜索引擎的老大,很多草根站长一直在研究的它的搜索技术和排名算法,还有不少站长兄弟姐姐还要靠它的流量吃饭,为此1781.html">草根网站的站长们对它是又爱又恨,百度能带来很大的流量,又会无情的K站或降权. 好的,那咱们说说百度的分词技术,可能小弟有说的不对地方

浅析百度分词技术与google词干技术

做seo的都知道google的词干技术和百度的分词技术,关于他的细心解释百度一下或google一下可以找到很多,在此也不加赘言,今天主要说一下怎么可以看出google的词干技术和百的分词技术.本人只是按自己的一些小经验,希望大家能更好的理解词干技术和分词技术的区别,在以后针对性优化时有点帮助.相信seoer都用过google管理员工具的,以本人的博客为例,看下图: 你会看见google管理员工具后台列出的一些搜索的关键词,你会发现有个"撕"字搜索量比较大,而实际上我的博客上与这个字相关

SEOer值得了解的搜索引擎索引和分词技术

在网络公司做过程序开发的朋友都知道,我们通常用的数据库搜索技术就是把用户输入的词汇,跟数据库中的某个或多个字段里的内容进行比较,同样,搜索引擎的运行原理简单来讲也就是这样: 用户输入一个词汇,搜索引擎从他的数据库中找到匹配的内容,再以有序的排列展现给用户,搜索引擎每天就是不厌其烦地不断重复这些操作.看似一切很正常,我们用数据来分析问题-- 全球网民按20亿计算,全球所有网站的网页先假设是50亿个 按每人每天搜索1次(也就是1个关键词,假设都是不重复的) 那么搜索引擎每天要从50亿个网页中搜索比对

百度的分词符

摘要: 今天谈一下百度分词符,百度的分词技术是众多SEOer常用的一种优化手段,分词做得好,能带来十分不错的关键词排名和流量. 我们拿网络营销和重庆seo来具体讲一下:网络营销|重庆 今天谈一下百度分词符,百度的分词技术是众多SEOer常用的一种优化手段,分词做得好,能带来十分不错的关键词排名和流量. 我们拿网络营销和重庆seo来具体讲一下:网络营销|重庆seo 网络营销_重庆seo 网络营销-重庆seo 网络营销 重庆seo 网络营销,重庆seo 注释: 在百度的分词符规则中,符号"|&quo

王克江:详细案例解说百度中文分词原理

搜索引擎算法的改变迎来的中文分词原理的变化,下面idsem团队成员王克江以中文分词原理来解说百度中文分词原理的分词规则,分享如下: 一.中文分词原理的解说 1.基于理解的分词方法 基于理解的分词方法就是机器模拟人来理解词语,在语言知识及其词库的配合下,机器执行语句控制,词意控制,以及分词控制来模拟人来读取网页信息.可以理解成机器模拟人分词. 2.基于字符串匹配的分词方法 基于字符串匹配分词是与词库进行对比按照不同的扫描方式进行分词,扫描方式分为四种: 1)正向最大匹配法(由左到右的方向) 2)逆