中文分词组件

　　中英文分词组件。完全C#托管代码编写，独立开发。

　　技术特点

　　=========

　　1. 识别率接近90%。

　　虽然和专业分词系统相比有一定的差距，但对于搜索引擎等小型分词需求而言足够了。

　　2. 多元歧义自动识别。

　　对于前后歧义有较好的识别效果。

　　如:

　　长春市长春节致词 -- 长春/市长/春节/致词/

　　长春市长春药店 -- 长春市/长春/药店

　　3. 常用及敏感词过滤功能。

　　通过一个简单的属性设置就可以完成针对常用词、标点和敏感词汇的过滤。系统内置了常用无意字词和标点的过滤。当然针对文章等分词时可以屏蔽过滤功能。

　　4. 控制符过滤功能。

　　可以设置属性值，在分词结果中保留回车换行等控制字符，从而保留原来的显示结构。

　　5. 内置10万多条基本词库。

　　系统内置包含10万多条优选词汇的基本词库，并提供编程接口任意扩充。

　　6. 全角字符识别能力。

　　如：IBM和HP都是世界级的PC制造商。-- IBM/和/HP/都/是/世界级/的/PC/制造商/。

　　7. 轻量级的分词组件，仅1个DLL文件，无需安装注册，发布简便。

时间： 2024-10-31 01:50:44

中文分词组件的相关文章

asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取_应用技巧

比如标题是:腾讯QQ 2006 珊瑚虫集成版 v4.5b 分词后:[此资源关键词:腾讯 QQ 珊瑚虫集成 ] 并且把关键词做成专题,可以为每个内容页面生成相关连接了用CSW中文分词组件下载:http://www.vgoogle.net/Product_CSW.asp 下面是我的ASP代码,比较粗浅,但实用 codecsw 得到输出的所有分词结果,用它的组建里面有个ASP文件,你一看就知道怎么得到分词结果了,这个不详细说了. 复制代码代码如下: fcon=split(htm," "

scws中文分词组件

1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库. 2. 将下载后的 php_scws.dll 放到 php 安装目录的 extensions/ 目录中去(通常为:X:/php/extensions/或 X:/php/ext/). 3. 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc 4. 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中词典系列:http://ww

几款开源的中文分词系统_相关技巧

以下介绍4款开源中文分词系统. 1.ICTCLAS – 全球最受欢迎的汉语分词系统中文词法分析是中文信息处理的基础与关键.中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词:词性标注:命名实体识别:新词识别:同时支持用户词典:支持繁体中文:支持GBK.UTF-8.UTF-7.UNIC

随思：关于中文分词方法

疑问:为什么会涉及到分词方法学呢? 为什么需要确定哪些是词语,哪些不是词语呢? 为什么需要进行分词,如果不分词会是什么情况呢? 分词的根本目的是为了搜索服务的,更确切的是为快速搜索而服务的. 了解倒排索引后,就知道全文搜索需要分词了.理解一下正向索引(反向索引就是倒排索引,先产生了正向索引来搜索,后面才发明了反向索引): http://www.cnblogs.com/wangtao_20/p/3647193.html 比如要搜索词语"湖南",那么意思是搜索哪些资料中带有关键词"

Solr学习总结（八）IK 中文分词的配置和使用

最近,很多朋友问我solr 中文分词配置的问题,都不知道怎么配置,怎么使用,原以为很简单,没想到这么多朋友都有问题,所以今天就总结总结中文分词的配置吧. 有的时候,用户搜索的关键字,可能是一句话,不是很规范.所以在 Solr 中查询出的时候,就需要将用户输入的关键字进行分词. 目前有很多优秀的中文分词组件.本篇只以 IKAnalyzer 分词为例,讲解如何在 solr 中及集成中文分词,使用 IKAnalyzer的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易.具

PHP中文分词自动获取关键词介绍_php实例

复制代码代码如下: <?php header("Content-Type:text/html; charset=utf-8"); define('APP_ROOT', str_replace('\\', '/', dirname(__FILE__))); $test = '这里是一段中文测试代码!'; function get_tags_arr($title) { require(APP_ROOT.'/pscws4.class.php'); $pscws = new PSCWS

jieba.NET中文分词及jieba.NET与Lucene.Net的集成

jieba中文分词的.NET版本:jieba.NET jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字). .NET平台上常见的分词组件是盘古分词,但是已经好久没有更新了.最明显的是内置词典,jieba的词典有50万个词条,而盘古的词典是17万,这样会造成明显不同的分词效果.另外,对于未登录词,jieba"采用了基于汉字成词能力的HMM模型,使用了Viterbi算法",效果看起来也不错. 基于以上两点,加上对于中文分词的兴趣

数学之美系列二 -- 谈谈中文分词

谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词.例如把句子 "中国航天官员应邀到美国与太空总署官员开会." 分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会. 最容易想到的,也是最简单的分词办法就是查字典.这种方法最早是由北京航天航空大学的梁南元教授提出的. 用 "查字典" 法,其实就

ASP.NET编写简单的中文分词程序

asp.net|程序|中文几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见. 一.词库词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下: 地区 82重要 81新华社 80技术 80会议 80自己 79干部 78职工 78群众 77没有 77今天 76同志 76部门 75加强 75组