浅析常用分词算法的比较与设想_实用技巧

与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配的算法更加通用。基于文本匹配的算法又称之为“机械分词算法”,他是它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,可识别出一个词。按照扫描方向的不同,文本匹配分词方法可以分为正向匹配和逆向匹配两种;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

  常用的几种机械分词方法如下:

  1) 正向最大匹配法(由左到右的方向)

  2) 逆向最大匹配法(由右到左的方向)

  3) 最少切分(使每一句中切出的词数最小)。

  其他的还有将上述各种方法相互组合形成的分词算法,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。本文中着重讨论正向最大匹配法和逆向最大匹配法。

  由于机械分词算法的准确性取决于算法的准确性与词库完备性两个方面。在本文中设想词库充分大,包含需要的词语。

  一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

  我们先看两句中文:

  1) 长春市长春节致辞

  2) 长春市长春药店

  我们假使词库中包含如下词语“长春”,“长春市”,“市长”,“春节”,“致辞”,“春药”,“药店”,“春药店”等。

  用正向最大匹配法得到的结果是:

  长春市/长春/节/致辞(分成4个词,其中“节”未匹配到,语义错误)

  长春市/长春/药店(分成3个词,都匹配到,语义正确)

  用逆向最大匹配法得到的结果是:

  长春/市长/春节/致辞(分成4个词,都匹配到,语义正确)

  长春/市长/春药店(分成3个词,都匹配到,语义错误)

  从此,我们可以看到正向最大匹配法和逆向最大匹配法的利弊所在:都能够正确解释部分中文,同时都有一些无法区分。

  是否可以考虑将这两种匹配法结合起来,各取所长呢?答案是肯定的。

  首先,我们对同一个词用正向最大匹配法和逆向最大匹配法分别切词,再将结果进行比较。如切分“长春市长春节致辞”,因为正向最大匹配法有一个词语无法匹配,故选择使用逆向最大匹配法作为结果。

  其次,我们可以引入词频的概念,及每一个词语都会根据其在汉语中出现的概率获得一个词频值。我们对“长春市长春药店”进行两种方法的分词,但是因为逆向最大匹配法得到的“春药店”的词频相比于其他词语的词频要低很多。我们可以认为这种分词方法得到的结果不通用,取正向最大匹配法得结果。

  当然,还可以将其他的一些方法(如扫描标志法,词性检查法等)与这两种匹配法相结合,以获得更好更准确的分词效果。

时间: 2024-12-24 10:44:38

浅析常用分词算法的比较与设想_实用技巧的相关文章

常用分词算法的比较与设想

与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配的算法更 加通用.基于文本匹配的算法又称之为"机械分词算法",他是它是按照一定的 策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行配,若在词典 中找到某个字符串,则匹配成功,可识别出一个词.按照扫描方向的不同,文本 匹配分词方法可以分为正向匹配和逆向匹配两种:按照不同长度优先匹配的情况 ,可以分为最大(最长)匹配和最小(最短)匹配:按照是否与词性标注过程相 结合,又可以分为单纯分词方法和分词与标注相

经典算法:基数排序的小例子_实用技巧

1.概述 基数排序(Radix sort)是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较.由于整数也可以表达字符串(比如名字或日期)和特定格式的浮点数,所以基数排序也不是只能使用于整数.基数排序的发明可以追溯到1887年赫尔曼·何乐礼在打孔卡片制表机(Tabulation Machine)上的贡献. 原理:将所有待比较数值(正整数)统一为同样的数位长度,数位较短的数前面补零.然后,从最低位开始,依次进行一次排序.这样从最低位排序一直到最高位排序完成以后,

四个常用的.NET的SQLHELPER方法实例_实用技巧

本文所述实例有别于网上常见的由代码生成器生成的sqlhelper,比如动软.CodeSmith等生成的.其实代码生成器生成的sqlhelper很多的方法在实际开发中都是用不到的,考虑初学者如果封装类的方法太多,会造成一定的困扰,也会给他们增加负担,所以本文列举出了再实际运用中总结的四个比较常用的方法,其实,最常用的应该是两个,就是查和增删改,其它两个也是用的比较少的. 需要说明的是,sqlhelper在winform的开发中用的比较多,在asp.net和mvc的项目中用的封装类跟winform有

ASP.NET中常用输出JS脚本的类实例_实用技巧

本文实例讲述了ASP.NET中常用输出JS脚本的类,针对过去输出js脚本的类进行了一定的改进.在项目开发中非常具有实用价值.分享给大家供大家参考.具体如下: 很多时候在ASP.NET中我们经常需要输出一些JS脚本,比如弹出一个警告窗口,返回到历史页面等JS功能,我看到网上流传得比较广的是马先光写的一个JScript类,这个类基本将经常用到的JS脚本包含了,非常方便,唯一的不足是作者采用的Response.Write(string msg)的办法,这样造成输出的js脚本在<html></h

深入浅析WinForm 进程、线程及区别介绍_实用技巧

一.进程 进程是一个具有独立功能的程序关于某个数据集合的一次运行活动. 它可以申请和拥有系统资源,是一个动态的概念,是一个活动的实体. Process 类,用来操作进程. 命名空间:using System.Diagnostics; Process.Start("calc"); //打开计算器 Process.Start("mspaint"); //打开画图 Process.Start("iexplore" , "http://www.

asp.net(c#)两种随机数的算法,可用抽考题_实用技巧

第一种算法,存大一点问题.没有查出来  复制代码 代码如下: static void Main(string[] args)  {  //  // TODO: 在此处添加代码以启动应用程序  int singletitlemeasure=5;  int n=1;//声明一个表示考试类型的int变量  Random ran=new Random(unchecked((int)DateTime.Now.Ticks));  int Int1Random;  switch(n)  {  case 1:/

常用JavaScript代码提示公共类封装_实用技巧

希望对大家有帮助! 复制代码 代码如下: using System; using System.Web; namespace Jake.PublicJS { /// <summary> /// Summary description for PublicJS /// </summary> public class PublicJS { public PublicJS() { // // TODO: Add constructor logic here // } /// <su

浅析中文分词算法 助力站长更好做优化

分词算法以前偶尔也懂些,但是懂的不透彻,最近看了很多相关的书,然后去互联网上又学习了一部分,算是有了个大概的了解.其实了解分词算法无论对于个人站长一些中小型企业,都十分有帮助.通过这些词的拆分,能让我们对关键词的把握更加的精准.好了,下边开始今天的正文,如果有不对的的地方,还希望大家多指正. 通常的分词算法往往是针对中文搜索引擎而言,对于Google则不存在,在百度和Google上搜索同样一个关键词或者短语,返回的结果是不同的,这不仅仅是算法不同或者技术不同的原因,更多是因为分词算法的存在.百度

ASP.NET常用小技巧_实用技巧

今天为大家介绍6个ASP.NET常用技巧,使用操作简单,具有很高的实用性,记得收藏哦 1.跟踪页面执行  设置断点是页面调试过程中的常用手段,除此之外,还可以通过查看页面的跟踪信息进行错误排查以及性能优化.ASP.NET中启用页面跟踪非常方便,只需在Page指令中加入Trace="True"属性即可:设置断点是页面调试过程中的常用手段,除此之外,还可以通过查看页面的跟踪信息进行错误排查以及性能优化.ASP.NET中启用页面跟踪非常方便,只需在Page指令中加入Trace="T