百度竞价--中文分词技巧

开始啦,我的第一篇关于***的学习的日志,现在的研究方向是自然语言处理,说到自然语言处理,对于中文首当其冲的就是分词。

和西方语言不同,中文句子中不像英语,每个单词间有空格隔开,而是全部连在一起,词间没有明显的界限。这就为我们的翻译、检索等等更高级的">信息处理带来了不小的麻烦,怎样将一句话中的关键词提取出来,便成为了中文信息处理首先要解决的问题,这就是我们所谓的分词。

现有的分词算法小脑袋百度360搜狗竞价软件小编认为可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

我们就先说说基于字符串匹配的分词方法(也成为机械分词,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功)吧,目前机械分词有这样几种方法:

1)正向最大匹配法(由左到右的方向)
2)逆向最大匹配法(由右到左的方向)
3)最少切分(使每一句中切出的词数最小)
4)还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合

起来构成双向匹配法。

下面就是小脑袋百度360搜狗竞价软件小编要说的第一种机械分词的方法:正向最大匹配。

那么我们先来看个例子:

"我现在非常开心"

对于这句话,正向最大匹配的原则是什么呢?"正向"就指我们从左至右搜索,"最大"就是我们每次都取最大词长进行匹配(由于中文有单字成词的特点)。

首先,假如词典中的最长词长度为4,我们从第一个字开始向右取4个字:"我现在非",然后去与词典中的词一一进行匹配,显然词典中没有这么个词,我们就将 最后一个字去掉变成:"我现在",然后再到词典中进行匹配。一直到"我"匹配成功,我们就将我与整个句子切分开来:"我/现在非";

然后呢?"我"已经作为一个词切分出来了,我们便从下一个字继续取4个字("现在非常")作

为一个词去匹配,继而切出"现在/非常"。之后依次类推。。。。

最后就切成了:我/现在/非常/开心

简单吧?这样大家也容易明白逆向最大匹配了吧?我们从句尾也就是由右至左进行搜索。步骤和上述的正向最大匹配是一样的,只是我们从右边往左去取词:(假如我们依旧选择4为最大词长)

第一次选择的就是"非常开心",词典中没有这个词,便删去第一个字变为:"常开心",直到分成:"非常/开心"。

然后呢?继续向左取:"现在非常"。。。 之后的与上述一样,最终便分为:我/现在/非常/开心

然后呢?两种方法一样啊?分出来的结果也一样啊?其实不然,机械分词法德局限也就在此,而这个问题也是基于词典方法的分词最难攻克的难题:歧义和未登录词。

来自小脑袋百度360搜狗竞价软件试用站: www.yijianjingjia.com转载请保留

时间: 2024-09-22 14:28:10

百度竞价--中文分词技巧的相关文章

你不知道的秘籍 百度的中文分词三点原理

百度中文分词算法:指搜索引擎为了更好的辨别用户的需求,并且为了快速提供给用户需求性信息而使用的算法. 搜索引擎要在单位时间内处理千万亿级的页面数据量,因此搜索引擎拥有一个中文词库.比如百度现在大约有9万个中文词,那么搜索引擎就可以对千亿级的页面进行分析,按照中文词库进行了分类. 百度分词基本有三种分法 1.基于理解:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的,比如搜索"大学堂". 2.基于统计:百度把一个词标红的原因:标红的词一般是一个关键词,你搜索"学"字

浅谈做百度竞价有哪些技巧

随着网站的不断泛滥,很多企业网站.个人网站都得不到一个排名,针对这个问题,很多企业选择了百度推广,今天,就借此机会为大家分享一下做百度竞价的经验之谈,仅此而已!希望对大家能有所帮助! 一.如何选择关键字 怎么选择关键字?我相信大部分的竞价人员都会利用百度的"关键字推荐"工具,随便搜索一个关键字,出现几百个关键字,如何选,我相信大家都有自己的选法. 我一般会进行筛选,百度有个特别好的选项,如包含,可以事先编辑好创意,比如"隆胸多少钱",编辑好了单元与创意,可以直接利用

百度竞价关键词选择技巧与匹配方式

添加百度竞价关键词之前,相信大家就会遇到一个问题,如何选择和匹配关键词?首先紫光云助手就先带你来了解下什么是关键词?关键词就是用于搜索的词,我们就是通过关键词定位潜在客户,你选择什么词就定位什么客户,所以关键词会影响成交率.下面紫光云助手百度竞价软件就进入今天的主题. 第一.如何选择关键词 1.根据营销目的来选取关键词 一个站长做竞价的时候首先要明白自己的营销目的,是要推广一个品牌,还是促销商品,像新浪微博这样的重要的是品牌的推广,而像减肥药排行榜这种词做的就是产品促销.其次,很需要关注的一点是

分析百度的中文分词结果

本结果是基于20000次以上的搜索分析百度而的来的,如有不当请指正,希望我们能够一起来揭开百度分词的面纱. 在大家的心目中可能百度的分词是极其复杂的,他代表了中国分词领域的最高水平,其实不然,简单最好,裸体最美,当我们拨下百度的衣服,既然会发现百度的分词是如此的简单,可能正应了一个名人的某一句话:当用户输入查询关键字的时候我们要准确的知道用户在想什么!这正是百度所追求的,他把所有的工作都放在了处理用户查询关键字的时候. 本分析结果也是无意得到的.www.sj110.com搜价110是Handso

浅谈百度竞价推广的技巧 合理应对其不确定性

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 说到百度,现在大家都会想到的就是百度的竞价推广.这个令人难以想象的暴利行业--利润率竟然高达75%!相信GG看到后也会表示压力有点大的哈.但是就算百度再黑,做百度推广的企业公司还是趋之若鹜,如过江之鲫般络绎不绝.因为百度推广的的确确能为部分的企业公司带来意想不到的财源,企业的最终的投入产出比才是各企业老板们最愿意看到的结果了. 本人初涉百度才

旅游网站推广:百度竞价深度优化技巧助您一臂之力

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 您是否遇到过这些疑问:为什么我的关键字价格这么高?花了这么多钱怎么没有效果?帮帮忙提高投资转换率吧!而有的竞争对手却花少量的钱获得了比我们好的收益? 为什么同样做百度竞价.google竞价,有的花钱少,效果花,有的企业日消费几百却只有很小很小的效果,造成了大部多资金的浪费,核心原因有几点:智能匹配和关键字选择.竞价词语的引导.广告着陆页面的选

谈谈百度最新中文分词算法说明

中文分词技术属于自然语言http://www.aliyun.com/zixun/aggregation/20795.html">处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法. 现有的分词算法可分为三大类:基于字符串匹配的分词方法.基于理解的分词方法和基于统计的分词方法. 1.基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条

小脑袋竞价软件谈百度竞价后台优化技巧

http://www.aliyun.com/zixun/aggregation/11238.html">百度推广之前又被称作竞价排名,自从被更名为百度推广之后后台也有了明显的变化了,最近这几个月,我接到好几个客户的订单,其中一个客户是以前做竞价的老客户了,中间有停了两年没有推广,现在开通了新后台之后感觉使用起来非常的复杂, 不过毕竟有做过竞价排名的底子,所以很快就掌握了 诀窍了,对于关键词的掌控比作了有一年的客户还要好,只需要很低的价格就能够排在很好的位置!下面小脑袋智能竞价软件小编就来给

最实用的百度竞价选词技巧

每一个行业都有一些较热的词,而这些热门的词, 毫无疑问竞价的钱也比较高.而这些比较热的词的有时也不是最有效的词.我们在做竞价时应该避开热门的词,做搜索量比较少的长尾的词.比如说:http://www.aliyun.com/zixun/aggregation/11111.html">网上赚钱,这就是一个比较热的词,如何利用网络赚钱,这个就是长尾词汇.如果竞价后者价格 肯定前者低,效果转化率也肯定比前者.   我们做竞价时,应该多做长尾词汇,相信长尾理论你应该听说过,这个理论恰好和28理论反过