ictclas分词系统-ICTCLAS分词系统的使用

问题描述

ICTCLAS分词系统的使用

怎么用ICTCLAS分词系统对一个TXT文档里面的所有中文语料进行分词操作,求大神指点,越详细越好

解决方案

ICTCLAS分词系统可以高效地实现分词。下面把过程贴出来。
使用方法,首先到网上下载ICTCLAS,因为我是windows下的C++实现,所以在http://ictclas.org/ictclas_download.aspx下载ICTCLAS2011_Windows_32_c,解压,里面有很好的Demo,Doc,copy API目录下的所有文件(夹)到你所在的工程,在你的源文件加上
#include "ICTCLAS50.h"
#pragma comment(lib, "ICTCLAS50.lib") //ICTCLAS50.lib库加入到工程中
//
//your code here,可参考Demo里面的代码
//
即可。
大概的函数C++函数接口都在Doc文件下的文档中:

bool ICTCLAS_Init(const char* pszInitDir=NULL);初始化函数
返回值

如果初始化成功返回true, 否则返回false. 如初始化不成功,请查看ictclas.log文件了解详细错误原因.

参数

pszInitDir:初始化路径,应包含配置文件(Configure.xml)和词典目录(Data目录)以及授权文件(user.lic). 如果这些文件及目录在系统运行当前目录下,此参数可以为null。

bool ICTCLAS_Exit( );退出,释放内存
返回值

成功返回true;否则返回false。

unsigned int ICTCLAS_ImportUserDict(const char *sFilename,eCodeType eCT)

//导入用户自定义词典

返回值

导入成功的词的个数

参数

sFilename: 用户定义词典文件

eCT:编码格式

int ICTCLAS_ParagraphProcess(const char sParagraph,int nPaLen,eCodeType eCt,int bPOStagged,char sResult);//对一段文字进行分词
返回值

返回结果缓冲区的指针(sResult)以及结果的长度R

参数

sParagraph: 原始文字段

nPaLen: 文字段的长度

eCodeType: 文字段的编码格式

bPOStagged: 需不需要根据标注集做标记 0 = 做标记 ; 1 = 不标记; 默认为1.

sResult: 输出结果

t_pstRstVec ICTCLAS_ParagraphProcessA(const char *sParagraph,int PaLen,eCodeType eCodeType,int bPOStagged,int &nRstCnt);

//处理文字段

返回值

结果vector的指针,系统调用,用户无法分配以及释放

struct stResult{

int start; //start position

int length; //length

#ifdef POS_TAGGER

int iPOS; //POS

char sPOS[POS_SIZE];//word type

#endif

int word_ID; //word_ID

int word_type; //Is the word of the user's dictionary?(0-no,1-yes)

int weight;// word weight

};

参数

sParagraph: 原始文字段

nPaLen: 文字段长度

eCodeType: 编码格式

bPOStagged:

需不需要根据标注集做标记 0 = 做标记 ; 1 = 不标记; 默认为1.

nRstcnt: 处理结果的长度值。

详细用法参见Doc文件。

bool ICTCLAS_FileProcess(const char *sSrcFilename,eCodeType eCt,const char *sDsnFilename,int bPOStagged);//处理txt文件

返回值

处理文本文件成功返回true, 否则返回false

参数

sSourceFilename: 原始处理文件

eCodeType: 原始文件编码格式

sDsnFilename: 存储结果的文件名T

bPOStagged: 需不需要根据标注集做标记 0 = 做标记 ; 1 = 不标记; 默认为1.

注意事项

调用此函数之前需要调用init函数成功,输出格式可以通过ICTCLAS 配置来更改,这个需要研究下配置文件。

int ICTCLAS_SetPOSmap(int nPOSmap);//设置标注集

返回值

成功为1,其他为0

参数

nPOSmap :

ICT_POS_MAP_FIRST 计算所一级标注集

ICT_POS_MAP_SECOND 计算所二级标注集 PKU_POS_MAP_SECOND 北大二级标注集 PKU_POS_MAP_FIRST 北大一级标注集

int ICTCLAS_GetWordId(const char *sWord,int nWrdLen,eCodeType eCT);
返回值
单词的ID(我觉得是词典里面的存储位置,不清楚词典的具体结构)
参数

sWord: 目标单词
nWrdLen: 单词长度

eCodeType: 编码格式

bool ICTCLAS_ResultFree ( t_pstRstVec pRetVec)

//释放调用ICTCLAS_ParagraphProcessAW得到的vector指针

返回值

成功为1,失败为0

参数

t_pstRstVec: ICTCLAS_ParagraphProcessAW得到的vector指针

总结:这些函数都很好用,我需要使用处理文件函数ICTCLAS_FileProcess我出现的问题是:单独调用这个函数没有问题,但是在MFC界面调用两个选择打开文件路径和保存结果文件路径的CFileDialog以后就会出现ICTCLAS_Init初始化失败!郁闷了半天,查看ICTCLAS.log文件,

Default Path : E:test_ICTCLAStest_ICTCLAStest_ICTCLAS

start lic check.

License succeed!Cannot open user dictionary

E:test_ICTCLAStest_ICTCLAStest_ICTCLASDataUserDict.pdat.

Cannot open file E:test_ICTCLAStest_ICTCLAStest_ICTCLASDataUserDict.map.

Cannot open user dictionary E:test_ICTCLAStest_ICTCLAStest_ICTCLASDataUserDict.pos.

Load dictionary down!

并没有异常,加载失败是因为并没有自定义词典。

仔细排查,发现bool ICTCLAS_Init(const char* pszInitDir=NULL)有一个默认的工作路径,在没有打开CFileDialog的时候默认的路径是exe文件执行路径,但是打开以后若不进行设置,会改变工作路径!这就是为什么点击CFileDialog路径更改,找不到路径下的文件,当然无法初始化了!( pszInitDir:初始化路径,应包含配置文件(Configure.xml)和词典目录(Data目录)以及授权文件(user.lic). 如果这些文件及目录在系统运行当前目录下,此参数可以为null)

解决方案:
方案1. 在每次调用CFileDialog打开文件后重新设置工作路径
方案2. 在程序中使用绝对路径
方案3. CFileDialog的构造函数有8个参数,平时为了省事一般只是指定第一个。其实解决这个问题,只要在第四个参数dwFlags中加上OFN_NOCHANGEDIR即可

我使用第三个方法解决了^_^!

时间: 2024-11-01 06:32:40

ictclas分词系统-ICTCLAS分词系统的使用的相关文章

用Win8系统刷新和系统重置轻松恢复系统方法

Win8有着更简单的恢复方式,win8系统内置的"系统刷新"和"系统重置"组件让我们在Windows 8系统出问题的时候能轻松恢复到正常状态--官方安装,无毒无马无插件. 小知识:什么是"系统刷新"和"系统重置" 系统刷新:Win8将保留个性化设置.个人文件.驱动以及通过Windows商店中的安装的应用程序,删除其它应用程序,恢复到默认状态.简单地说,其效果相当于于Ghost备份的恢复. 系统重置:系统完全重装,删除非系统程序

Windows7系统程序因为系统安全导致无法安装或运行的方法

解决Windows7系统程序因为系统安全导致无法安装或运行的方法: a.一开始双击运行某程序的"setup.exe"文件时,鼠标指针在"转了几个圈"消失后,就没有了反应. b.然后,就以兼容的方式运行程序,但软件依然没有反应,在他右键查看程序属性时,在属性窗口的最下方,它发现该程序被Windows 7锁定.Windows 7提示该文件来自其他计算机,被系统阻止. c.点击"解除锁定"按钮,再点击"确定"按钮,即可解除程序被锁定

win7系统怎么备份系统?

  win7系统怎么备份系统?            1.先打开菜单.单击[控制版面]. 2.再看到[系统和安全],单击[备份您的计算机]. 3.单击[设置备份]. 4.等待一下,就好了.             更多知识欢迎关注三联windows7教程 栏目

笔记本win7系统无法开启系统还原功能怎么办

笔记本win7系统无法开启系统还原功能怎么办 1.在使用系统还原功能时是必须开启Microsoft Software Shadow Copy Provider服务的,检查是否没有开启此服务的原因,或是优化软件将此服务关闭了. 2.点击"开始--搜索",在搜索框中输入"services"命令按回车,在搜索出的services.exe上双击打开服务管理器; 3.找到并双击Microsoft Software Shadow Copy Provider服务项,将启动类型改为

win8系统重装win7系统需要注意的事项

  win8系统重装win7系统需要注意的事项 1.首先Win8系统要关闭快速启动功能才能正常进入到BIOS. 2.接着需要在BIOS中将UEFI启动模式改换成传统模式:BIOS→EXIT→OS Optimized Defaults,将"Win8 64bit"改为"Others"即可. 3.之后进入"BIOS→Boot",将Boot Priority设置为"Legacy First",然后将Boot Mode 设置为"

win8.1系统如何还原系统?

  win8.1系统如何还原系统? 1.在桌面右键点击我的电脑 点击属性; 2.点击系统保护; 3.点击系统还原; 4.点击下一步进行系统还原即可.

Windows 7系统如何进行系统备份

windows 7系统自带系统备份功能和其映像备份功能略有所不同,映像是整个分区的备份,而系统备份是备份系统文件和重要文件,这里我们讲一下系统备份功能的操作. 工具/原料windows 7系统电脑一台 步骤/方法打开控制面板,"备份和还原",选择设置备份. 弹出提示,耐心等待完成. 选择备份位置,任何超过1G的磁盘以及DVD刻录机会显示在此. 提示备份内容,可以让Windows选择或自行选择. 点下一步后出现备份信息,点击保存设置并运行备份. 会看到备份的进度条,请耐心等待. 备份完成

win7系统开机显示系统更新失败怎么办

  win7系统开机显示系统更新失败怎么办 1.当电脑开机显示系统更新失败(如图1)的时候,长按开机键10s,强制关机; 2.然后开机会显示电脑修复模式(如图2),上下键选择到"安全模式"然后回车; 3.如果没有跳出来电脑修复模式,在强制关机,再开机.基本上一次就能出现电脑修复界面; 4.进入安全模式的电脑桌面.点击"开始"选择"控制面板".点击"系统和安全"; 5.点击"启用或关闭自动更新".在重要更新那

ubuntu系统怎么修改系统语言?

  惠普电脑,预装ubuntu系统如何修改系统语言 1.首先,我们打开Ubuntu桌面左侧工具栏中的"系统设置" 2.然后选中设置中的"Language Support" 3.这里的默认系统语言为English 4.我们找到汉语(中国),向上拉,使汉语(中国)的位置替换English的位置.有的时候,不好拉,多拉几次就好了 5.将汉语(中国)拉到顶部后,我们点击"Apply System-Wide",将汉语(中国)应用到整个系统. 6.在弹出来的