常用分词算法的比较与设想

与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配的算法更 加通用。基于文本匹配的算法又称之为“机械分词算法”,他是它是按照一定的 策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典 中找到某个字符串,则匹配成功,可识别出一个词。按照扫描方向的不同,文本 匹配分词方法可以分为正向匹配和逆向匹配两种;按照不同长度优先匹配的情况 ,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相 结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的几种机械分词方法如下:

1)正向最大匹配法(由左到右的方向)

2)逆向最大匹配法(由右到左的方向)

3)最少切分(使每一句中切出的词数最小)。

其他的还有将上述各种方法相互组合形成的分词算法,例如,可以将正向最 大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的 特点,正向最小匹配和逆向最小匹配一般很少使用。本文中着重讨论正向最大匹 配法和逆向最大匹配法。

由于机械分词算法的准确性取决于算法的准确性与词库完备性两个方面。在 本文中设想词库充分大,包含需要的词语。

一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。 统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹 配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词 系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来 进一步提高切分的准确率。

我们先看两句中文:

1)长春市长春节致辞

2)长春市长春药店

我们假使词库中包含如下词语“长春”,“长春市”,“市长”,“春节” ,“致辞”,“春药”,“药店”,“春药店”等。

用正向最大匹配法得到的结果是:

长春市/长春/节/致辞(分成4个词,其中“节”未匹配到,语义错误)

长春市/长春/药店(分成3个词,都匹配到,语义正确)

用逆向最大匹配法得到的结果是:

长春/市长/春节/致辞(分成4个词,都匹配到,语义正确)

长春/市长/春药店(分成3个词,都匹配到,语义错误)

从此,我们可以看到正向最大匹配法和逆向最大匹配法的利弊所在:都能够 正确解释部分中文,同时都有一些无法区分。

是否可以考虑将这两种匹配法结合起来,各取所长呢?答案是肯定的。

首先,我们对同一个词用正向最大匹配法和逆向最大匹配法分别切词,再将 结果进行比较。如切分“长春市长春节致辞”,因为正向最大匹配法有一个词语 无法匹配,故选择使用逆向最大匹配法作为结果。

其次,我们可以引入词频的概念,及每一个词语都会根据其在汉语中出现的 概率获得一个词频值。我们对“长春市长春药店”进行两种方法的分词,但是因 为逆向最大匹配法得到的“春药店”的词频相比于其他词语的词频要低很多。我 们可以认为这种分词方法得到的结果不通用,取正向最大匹配法得结果。

当然,还可以将其他的一些方法(如扫描标志法,词性检查法等)与这两种 匹配法相结合,以获得更好更准确的分词效果。

时间: 2024-09-20 11:22:06

常用分词算法的比较与设想的相关文章

浅析常用分词算法的比较与设想_实用技巧

与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配的算法更加通用.基于文本匹配的算法又称之为"机械分词算法",他是它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,可识别出一个词.按照扫描方向的不同,文本匹配分词方法可以分为正向匹配和逆向匹配两种:按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配:按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化

SEO搜索中文分词算法原理实战教程

SEO搜索中文分词算法原理实战教程,如果一个人想成为一个合格的SEO人员,那么搜索引擎分词思维是必须掌握的,因为只有掌握了分词思维,你才可以做出搜索引擎喜欢,而且用户也喜欢的网页,虽然在梦想之旅视频教程中有和大家分享过搜索引擎中文分词原理,但没有完全的,系统的用文字版本和图片版本和大家分享,那么顾芳源就带大家如何正确学习SEO搜索分词思维吧. 搜索引擎中文分词原理 首先我们要知道搜索引擎工作原理是把每个网页的内容按词来录入到数据库,比如你的文章标题是:梦想SEO实战培训提供免费SEO教程,那么搜

漫话中文自动分词和语义识别(上):中文分词算法

转自:http://www.matrix67.com/blog/archives/4212 记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法.最近在詹卫东老师的<中文信息处理导论>课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲.在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论. 中文分词的主要困难在于分词

Matrix67:漫话中文分词算法

文章转载自: 我爱自然语言处理 记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法.最近在詹卫东老师的<中文信息处理导论>课上 再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲.在没有建立统计语言模型时,人们还在语言学的角度对自动分词进 行研究,期间诞生了很多有意思的理论. 中文分词的主要困难在于分词歧义."结婚的和尚未结婚的",应该分

浅述搜索引擎的分词算法 了解全文检索技术

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 21世纪互联网的快速发展让人们生活越来越便利,当日益剧增的海量信息让我们眼花缭乱时,搜索引擎的出现可以让我们快速找到自己想要的答案.因此多了解搜索引擎的分词算法,可以让网站在搜索引擎上获得更好的展现机会.在讲解中文分词技术之前,先来了解下全文检索技术. 全文检索技术 全文检索是指索引程序扫描文章中的每个词并建立对应索引,记录该词出现的位置和次

浅析中文分词算法 助力站长更好做优化

分词算法以前偶尔也懂些,但是懂的不透彻,最近看了很多相关的书,然后去互联网上又学习了一部分,算是有了个大概的了解.其实了解分词算法无论对于个人站长一些中小型企业,都十分有帮助.通过这些词的拆分,能让我们对关键词的把握更加的精准.好了,下边开始今天的正文,如果有不对的的地方,还希望大家多指正. 通常的分词算法往往是针对中文搜索引擎而言,对于Google则不存在,在百度和Google上搜索同样一个关键词或者短语,返回的结果是不同的,这不仅仅是算法不同或者技术不同的原因,更多是因为分词算法的存在.百度

蒋鑫鹏:百度搜索算法总结—关键词分词算法

此文接上文百度算法总结详细请点击:蒋鑫鹏:百度算法总结 一.关于中文分词: 1.中文分词难度分析 首先要说明下的是:普通用户的搜索与做SEO或者更大说熟悉网络搜索用户的搜索习惯是非常不一样的,而恰巧普通搜索用户是百度搜索的基础力量.在开头赘述 这一点是蒋鑫鹏为了表达其对于百度搜索算法中的中文分词的重视.因为,对于百度google这样的第二代搜索引擎来说,采用的检索技术主要是依靠关键字来 匹配的,而用户对于关键词的理解与机器程序对于关键词的理解是有很大距离的. 在中文分词方面百度胜过了Google

三种中文分词算法优劣比较

到目前为止,中文分词包括三种方法:1)基于字符串匹配的分词:2)基于理解的分词:3)基于统计的分词.到目前为止,还无法证明哪一种方法更准确,每种方法都有自己的利弊,有强项也有致命弱点,简单的对比见下表所示: 各种分词方法的优劣对比 分词方法 基于字符串匹配分词 基于理解的分词 基于统计的分词 歧义识别 差 强 强 新词识别 差 强 强 需要词典 需要 不需要 不需要 需要语料库 否 否 是 需要规则库 否 是 否 算法复杂性 容易 很难 一般 技术成熟度 成熟 不成熟 成熟 实施难度 容易 很难

常用的算法思想总结

对于计算机科学而言,算法是一个非常重要的概念.它是程序设计的灵魂,是将实际问题同解决该问题的计算机程序建立起联系的桥梁.接下来,我们来看看一些常用的算法思想. (一)穷举法思想 穷举法,又称为强力法.它是一种最为直接,实现最为简单,同时又最为耗时的一种解决实际问题的算法思想. 基本思想:在可能的解空间中穷举出每一种可能的解,并对每一个可能解进行判断,从中得到问题的答案. 使用穷举法思想解决实际问题,最关键的步骤是划定问题的解空间,并在该解空间中一一枚举每一个可能的解.这里有两点需要注意,一是解空