中文分词组件

  中英文分词组件。完全C#托管代码编写,独立开发。

  技术特点

  =========

  1. 识别率接近90%。

  虽然和专业分词系统相比有一定的差距,但对于搜索引擎等小型分词需求而言足够了。

  2. 多元歧义自动识别。

  对于前后歧义有较好的识别效果。

  如:

  长春市长春节致词 -- 长春/市长/春节/致词/

  长春市长春药店 -- 长春市/长春/药店

  3. 常用及敏感词过滤功能。

  通过一个简单的属性设置就可以完成针对常用词、标点和敏感词汇的过滤。系统内置了常用无意字词和标点的过滤。当然针对文章等分词时可以屏蔽过滤功能。

  4. 控制符过滤功能。

  可以设置属性值,在分词结果中保留回车换行等控制字符,从而保留原来的显示结构。

  5. 内置10万多条基本词库。

  系统内置包含10万多条优选词汇的基本词库,并提供编程接口任意扩充。

  6. 全角字符识别能力。

  如:IBM和HP都是世界级的PC制造商。-- IBM/和/HP/都/是/世界级/的/PC/制造商/。

  7. 轻量级的分词组件,仅1个DLL文件,无需安装注册,发布简便。

时间: 2024-10-31 01:50:44

中文分词组件的相关文章

asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取_应用技巧

比如标题是:腾讯QQ 2006 珊瑚虫集成版 v4.5b 分词后:[此资源关键词:腾讯 QQ 珊瑚虫 集成 ] 并且把关键词做成专题,可以为每个内容页面生成相关连接了 用CSW中文分词组件 下载:http://www.vgoogle.net/Product_CSW.asp 下面是我的ASP代码,比较粗浅,但实用 codecsw 得到输出的所有分词结果,用它的组建里面有个ASP文件,你一看就知道怎么得到分词结果了,这个不详细说了. 复制代码 代码如下: fcon=split(htm," "

scws中文分词组件

1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库. 2. 将下载后的  php_scws.dll 放到 php 安装目录的    extensions/ 目录中去(通常为:X:/php/extensions/或 X:/php/ext/). 3. 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc 4. 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中    词典系列:http://ww

几款开源的中文分词系统_相关技巧

以下介绍4款开源中文分词系统. 1.ICTCLAS – 全球最受欢迎的汉语分词系统         中文词法分析是中文信息处理的基础与关键.中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词:词性标注:命名实体识别:新词识别:同时支持用户词典:支持繁体中文:支持GBK.UTF-8.UTF-7.UNIC

随思:关于中文分词方法

疑问:为什么会涉及到分词方法学呢? 为什么需要确定哪些是词语,哪些不是词语呢? 为什么需要进行分词,如果不分词会是什么情况呢? 分词的根本目的是为了搜索服务的,更确切的是为快速搜索而服务的. 了解倒排索引后,就知道全文搜索需要分词了.理解一下正向索引(反向索引就是倒排索引,先产生了正向索引来搜索,后面才发明了反向索引): http://www.cnblogs.com/wangtao_20/p/3647193.html 比如要搜索词语"湖南",那么意思是搜索哪些资料中带有关键词"

Solr学习总结(八)IK 中文分词的配置和使用

最近,很多朋友问我solr 中文分词配置的问题,都不知道怎么配置,怎么使用,原以为很简单,没想到这么多朋友都有问题,所以今天就总结总结中文分词的配置吧.   有的时候,用户搜索的关键字,可能是一句话,不是很规范.所以在 Solr 中查询出的时候,就需要将用户输入的关键字进行分词.   目前有很多优秀的中文分词组件.本篇只以  IKAnalyzer 分词为例,讲解如何在 solr  中及集成中文分词,使用 IKAnalyzer的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易.具

PHP中文分词 自动获取关键词介绍_php实例

复制代码 代码如下: <?php header("Content-Type:text/html; charset=utf-8"); define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); $test = '这里是一段中文测试代码!'; function get_tags_arr($title) { require(APP_ROOT.'/pscws4.class.php'); $pscws = new PSCWS

jieba.NET中文分词及jieba.NET与Lucene.Net的集成

jieba中文分词的.NET版本:jieba.NET jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字). .NET平台上常见的分词组件是盘古分词,但是已经好久没有更新了.最明显的是内置词典,jieba的词典有50万个词条,而盘古的词典是17万,这样会造成明显不同的分词效果.另外,对于未登录词,jieba"采用了基于汉字成词能力的HMM模型,使用了Viterbi算法",效果看起来也不错. 基于以上两点,加上对于中文分词的兴趣

数学之美 系列二 -- 谈谈中文分词

谈谈中文分词----- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词.例如把句子 "中国航天官员应邀到美国与太空总署官员开会." 分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会. 最容易想到的,也是最简单的分词办法就是查字典.这种方法最早是由北京航天航空大学的梁南元教授提出的. 用 "查字典" 法,其实就

ASP.NET编写简单的中文分词程序

asp.net|程序|中文 几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见. 一.词库 词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下: 地区    82重要    81新华社    80技术    80会议    80自己    79干部    78职工    78群众    77没有    77今天    76同志    76部门    75加强    75组