分析百度的中文分词结果

本结果是基于20000次以上的搜索分析百度而的来的,如有不当请指正,希望我们能够一起来揭开百度分词的面纱。

在大家的心目中可能百度的分词是极其复杂的,他代表了中国分词领域的最高水平,其实不然,简单最好,裸体最美,当我们拨下百度的衣服,既然会发现百度的分词是如此的简单,可能正应了一个名人的某一句话:当用户输入查询关键字的时候我们要准确的知道用户在想什么!这正是百度所追求的,他把所有的工作都放在了处理用户查询关键字的时候。

本分析结果也是无意得到的。www.sj110.com搜价110是Handsome man Eunge带领下的一个项目,因我是pwqzc老鼠,老鼠吗,就是打点小洞,所以我负责词库这一块,为了词库的精确,在处理词库的时候经常查询百度,查多了,想多了,问题就出来了,竟然发现对百度的分词稍微有了点了解,这个是我无意撞上的,就如一个送水的汉子,碰上了一个要水的少妇,而这个少妇的男人三年前出门至今未归,此MM鸡渴难耐,于是和那个送水的汉子发生了不该发生的事,呵呵,都是撞上的。

下面是我的一些分析结果,凡是我可以肯定的,我都注明了。

1.百度的蜘蛛爬到的文档索引入库的时候是只进行了简单的分词处理(我可以肯定),也就是只是简单的把中文单个字单个字的分开,要证明这点很简单,你只需要搜索“地”或者“书”或者“脑”。。。。。。等单个词就可以了,当然,你也可以找一些莫名其妙的两个字或者三个字组合在一起搜索百度看,你就会明白他入库的时候只进行了简单的把单个中文分开的处理。他把复杂的分词逻辑放到了处理用户输入查询关键字的时候。仔细一想,其实这样做能够最大限度的消除歧义!!!

2.当用户输入两个字和三个字的词进行搜索的时候百度也没有进行任何处理的(我可以肯定),也只是把他们简单的按照单个字分开,然后查询的时候条件是这两个字或者这三个字必须连接在一起,中间没有任何其他的字。要证明这点也很简单,大家只要输入任意两个字的词或者三个字的词进行搜索就可以了,甚至你可以搜索“甘新哦”,“春天气”,“哦人无”等毫无意义的词进行查询,看是不是出来的搜索结果要么是没有找到任何内容,要么是包括你输入了的任何字,而且这些字都是连接在一起的,虽然这些字他们之间的组合是毫无意义,这也同时证明了百度在索引入库的时候是只进行了简单的按照单个中文分开。

3.百度如何处理四个字?我们输入“李宇春天”搜索,结果是被分成了“李宇”和“春天”,这给我们带来了两个疑问:第一,如果李宇春已经收录到了词典里面,那么肯定肯定百度是正向分词。第二,如果李宇春没有被收录到词典里面,那么可能是正向分词也可能是逆向分词。那么到底是那种呢?我们先判断百度处理查询关键子的时候是逆向分词还是正向分词。我们再输入“笔畅通行”来搜索他被分成了“畅通”,我想笔畅应该不会被收进词典,按此分析应该是正向分词;我们再输入“笔畅通知”,很明显被分成了“笔畅”和“通知”,这看起来是逆向分词的结果,如果是正向的话那也会被分成“畅通”的;我们再输入“桃李宇春”搜索,结果被分成了“桃李”和“宇春”,这看起来象正向分词,当然这也不能够证明就是逆向,因为如果李宇春没有收进词典,这逆向分词也会得到同样的结果。那么百度到底是正向还是逆向呢?我们抛开名字吧,因为我们还不感肯定象李宇宙春之类的词是不是在百度的词典里面,现在我们输入“神彩票啊”,很明显被分成了“彩票”,再输入“光彩票啊”,很明显也被风成了“彩票”,再输入“啊中国家”,结果被分成了“国家”,再搜索“啊国家庭”,被风成了“家庭”,我们再输入“风岁月亮”搜索,被分成了风岁和月亮,再输入“风岁月球”,被分成了“分”,“岁月”和“球”,再输入“风岁月份”,被分成了“分色”和“月份”,这样的结果看起来真的很让我们郁闷!!!极度郁闷!!更郁闷的是还在后头啊,我输入“笔畅通过”搜索,第一次的所有结果是全部把这四个字搜索出来,而且他们都是连接在一起的,而且这四个字之间没有任何其他的字!!但是我们过几分钟再次搜索,结果竟然截然不同!!!“笔畅通过”被分成了“畅通”!!!!这里我不敢乱下结论,如果是我,那我应该怎么样去处理四个字的关键字呢?

一,               首先取这四个字去匹配词典,如果匹配成功,则查询条件如ABCD,返回的结果必须包含ABCD,且ABCD必须连接在一起,中间没有任何其他字,在这里我首先假设索引入库的时候是只进行了简单的按照单个字切分,且搜索的时候能够判断索引文件里的A/B/C/D等文字中间有没有其他的文字。

二,               如果一匹配不成功,则截取前面两个字匹配词典,如果匹配成功,则如ABCD分成AB/CD,查询结果必须包含AB和CD,AB之间不能够有其他文字,CD之间也不能够有其他文字,AB和CD之间可以出现其他文字;查询结果可以包含ABCD全部连接在一起四个字之间没有其他文字的结果,且其排序优先于AB/CD。

三,               如果二匹配不成功,则截取最后面两个字匹配字典,如果匹配成功,采取和上面二一样的做法。

四,               如果三匹配不成功,则截取中间两个字匹配词典,如果匹配成功,则如ABCD查询的结果里面必须BC,且BC之间没有其他文字,结果也可以包含BCD,结果也可以包含ABC,结果也可以包含ABCD,结果排序优先规则(从最优开始):ABCD全部连接在一起的结果------BCD全部连接在一起的结果或ABC全部连接在一起的结果------BC全部连接在一起的结果。

五,               如果四匹配不成功,则可以肯定他是地名人名或者其他专有名词或者这四个字连起来没有任何意义,则采用一的方法。

暂时写到这吧,其他的慢慢来

时间: 2024-10-06 14:51:15

分析百度的中文分词结果的相关文章

你不知道的秘籍 百度的中文分词三点原理

百度中文分词算法:指搜索引擎为了更好的辨别用户的需求,并且为了快速提供给用户需求性信息而使用的算法. 搜索引擎要在单位时间内处理千万亿级的页面数据量,因此搜索引擎拥有一个中文词库.比如百度现在大约有9万个中文词,那么搜索引擎就可以对千亿级的页面进行分析,按照中文词库进行了分类. 百度分词基本有三种分法 1.基于理解:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的,比如搜索"大学堂". 2.基于统计:百度把一个词标红的原因:标红的词一般是一个关键词,你搜索"学"字

谈谈百度最新中文分词算法说明

中文分词技术属于自然语言http://www.aliyun.com/zixun/aggregation/20795.html">处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法. 现有的分词算法可分为三大类:基于字符串匹配的分词方法.基于理解的分词方法和基于统计的分词方法. 1.基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条

百度竞价--中文分词技巧

开始啦,我的第一篇关于***的学习的日志,现在的研究方向是自然语言处理,说到自然语言处理,对于中文首当其冲的就是分词. 和西方语言不同,中文句子中不像英语,每个单词间有空格隔开,而是全部连在一起,词间没有明显的界限.这就为我们的翻译.检索等等更高级的http://www.aliyun.com/zixun/aggregation/7394.html">信息处理带来了不小的麻烦,怎样将一句话中的关键词提取出来,便成为了中文信息处理首先要解决的问题,这就是我们所谓的分词. 现有的分词算法小脑袋百

王克江:详细案例解说百度中文分词原理

搜索引擎算法的改变迎来的中文分词原理的变化,下面idsem团队成员王克江以中文分词原理来解说百度中文分词原理的分词规则,分享如下: 一.中文分词原理的解说 1.基于理解的分词方法 基于理解的分词方法就是机器模拟人来理解词语,在语言知识及其词库的配合下,机器执行语句控制,词意控制,以及分词控制来模拟人来读取网页信息.可以理解成机器模拟人分词. 2.基于字符串匹配的分词方法 基于字符串匹配分词是与词库进行对比按照不同的扫描方式进行分词,扫描方式分为四种: 1)正向最大匹配法(由左到右的方向) 2)逆

通过分析百度分词技术实现SEO优化的技巧

笔者之前做过分词算法的测试员,其实分词技术并不是百度的强项,而是通过第三方的分词技术应用于自己是网站搜索上的,分词主要是通过对实词和虚词的分割,找到对用户来说有用的词这些词往往就被称作关键词,通过对分词技术的了解,让我们能够有效的提升网站关键词的指定,同时也有助于提升网站的排名! 通常分词算法是针对百度而言的,谷歌因为对分词技术不敏感,所以在中文搜索市场上,百度一直是领导者,返回的结果往往对用户更加的有用,所以我们做网站优化如果主要针对的是中文群体,那么了解百度的分词技术是非常必要的!下面我们就

萧涵:略谈百度搜索引擎的中文分词技术

了解搜索引擎分词技术对于我们的SEO工作有着重大的意义,不管是我们的关键词布局还是链接架构,都跟分词有莫大的关联.这里萧涵给大家谈下一百度的中文分词(当然也不局限于百度,其他搜索引擎也是差不多的).本文分两个部分,首先是摘取已有的关于分词的解释,另外再加入我自己对分词的扩展思路. 什么是中文分词? 我们都知道,英文句子都是由一个一个单词按空格分开组成,所以在分词方面就方便多了,但我们中文是一个一个汉字连接而成,所以相对来说是比较复杂的.中文分词指的是将一个汉语句子切分成一个一个单独的词,按照一定

浅谈百度中文分词是如何进行的

相信大家对于搜索引擎收录的分词技术一直都很好奇,掌握了解了搜索引擎分词技术对于我们这些站长的工作有很大的帮助:在网站的链接架构及关键词的布局都与分词有很大的关系.平时跟百度接触的比较多,所以就以百度中文分词为例介绍下搜索引擎分词的方法. 中文分词是什么 在了解百度的中文分词之前大家首先要了解什么是中文分词?我们中文与英文不同,是由一个个汉字连接成的,因此分起来相对比较复杂.百度的中文分词是将一个汉语句子切分成一个个的单独的词,然后按照一定的规则重新组合成一个序列的过程,简称"中文切词"

百度中文分词技术的一点小猜测

大家都知道,百度的中文分词技术比GOOGLE做的好,以下引用网络上找到的一张图片说明:   从上图可以推断出,百度遇到一个关键字,应该是先不进行分词,而是先检索百度百科的词条和百度指数有指数的中文词进行匹配,无法精确匹配的话,再进行分词,前两年在百度搜索关键字"利川新闻网"时,被分为利川/新闻/网,自从这个关键字有指数以后,百度会把它当做一个完整的关键词. 当然,百度的分词技术肯定比我个人推断出来的要复杂的多,作为百度旗下的产品,百度不会放弃自己的资源,肯定会参考百度百科的词条作为分词

网站优化中文分词有三种方法

摘要: 什么是分词技术?分词技术是搜索引擎针对用户提交查询的关键串进行的查询处理后,根据用户的关键词串用各种匹配方法进行的一种技术.分词技术最早研究发明的是谷歌,也是最成 什么是分词技术?分词技术是搜索引擎针对用户提交查询的关键串进行的查询处理后,根据用户的关键词串用各种匹配方法进行的一种技术.分词技术最早研究发明的是谷歌,也是最成熟的技术,中文分词技术大家都很清楚的.虽然谷歌是分词技术的创始者,但在中文比之英文要复杂得多,有多种语义,所以中文分词技术这方面是百度领先. 中文分词有三种方法: 1