分词工具的字典自动学习功能如何实现

问题描述

假设使用某种分词工具对训练样本进行分词.一般根据分词工具的字典将文本分隔并显示出来.我想将文本中与字典中相同的内容去掉,将分词结果剩下的部分添加到原有字典中以达到自动添加新词入词库的目的.不知应如何实现.

解决方案

解决方案二:
importjava.io.*;importjava.util.*;publicclassTokenizer{privatestaticTokenizertok=newTokenizer();publicStringread(Stringpath){StringBuilderstb=newStringBuilder();try{BufferedReaderbuf=newBufferedReader(newFileReader(newFile(path)));Stringsline;while((sline=buf.readLine())!=null){stb.append(sline);}buf.close();}catch(IOExceptione){e.printStackTrace();}returnstb.toString();}publicstaticvoidmain(String[]args){Stringdirecpath="字典的地址";Stringtextpath="文本的地址";String[]text=tok.read(textpath).split("\W+");String[]dire=tok.read(direcpath).split("\W+");Set<String>set1=newHashSet<String>();//文本Set<String>set2=newHashSet<String>();//字典Collections.addAll(set1,text);Collections.addAll(set2,dire);set2.addAll(set1);}}

不知这样是否可以。分别读取字典和文本,将字典和文本的单词分别放到两个set中,通过比较两个set,将文本中存在而字典中不存在的词放到字典中。

时间: 2024-09-22 22:05:48

分词工具的字典自动学习功能如何实现的相关文章

盘古分词用自定义字典

问题描述 如图.....请问下盘古分词工具怎么设置自定义字典来分词.把自带的分词删掉...添加自己的字典 解决方案 解决方案二:下载字段管理工具,里面有一个dictManager.exe下载地址http://download.csdn.net/detail/fangmenglong12/5298566#comment

ictclas4j分词工具搭建在hadoop上出现了很多windows底下没有出现过的错误

问题描述 ictclas4j分词工具搭建在hadoop上出现了很多windows底下没有出现过的错误 本人将在windows上调试好的分词工具包移到bantu底下的eclipse上,运行时出现了Exception in thread ""main"" java.lang.ArrayIndexOutOfBoundsException: -1 at java.util.ArrayList.elementData(ArrayList.java:418) at java.u

中科院分词工具2015c++调用接口

问题描述 中科院分词工具2015c++调用接口 //我想在运行时//输入要分词的文件名和生成的文件名//要怎样写呀c++的 #include#include ""NLPIR.h""#pragma comment(libNLPIR.lib"")using namespace std; int fen(){ if(!NLPIR_Init()) { printf(""failsn""); return 0; }

关于安卓编程访问服务器端的IK分词工具的问题

问题描述 关于安卓编程访问服务器端的IK分词工具的问题 本人想在服务器端接收安卓端传过来的关键词然后惊醒IK的分词和倒排索引的处理.在服务器端运行 函数是可以运行处结果的,但是通过安卓端传送回数据后调用总是卡住,卡在 Analyzer analyzer = new IKAnalyzer(); 解决方案 这个是初始化 不太像是跟数据有关 要看看你服务器运行时的状态 解决方案二: http://www.zhihu.com/question/38312658

推荐分词工具(java版)

问题描述 推荐分词工具(java版) 最近需要个java的分词,用的结巴分词,但是java版的效果感觉不太好,不如大连标注成d,哪个更靠谱些,不胜感激 解决方案 http://blog.csdn.net/wauwa/article/details/7865526http://www.cnblogs.com/pittzh/archive/2010/01/26/1657133.html 解决方案二: lucene就饿可以了 解决方案三: 我用的是mmseg4j,还不错.

怎么开启win10微软拼音输入法自动学习功能

在Windows10系统自带的微软拼音输入法具有自动学习的功能,但是需要相关的设置才能够使用,那怎么打开呢?下面我们就一起来看一下如何开启Windows10微软拼音输入法自动学习功能吧. 在Windows10桌面,点击右下角任务栏上的通知设置按钮 在打开的菜单中选择"所有设置"图标 这时会打开设置窗口,在这里点击"隐私"图标 在隐私 设置窗口中,点击左侧边栏上的"语音.墨迹书写和键入"一项 这时在右侧窗口中我们点击"了解我"按

python 分词工具 jieba

jieba知识 全几天看到高手下了个jieba分词快速入门的东西  ,希望关注我博客的人也能看得到 https://github.com/SalutLyndon/hello-world/blob/master/中文自然语言处理基本流 # coding: utf-8 # ###jieba特性介绍 # 支持三种分词模式: # 精确模式,试图将句子最精确地切开,适合文本分析: # 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: # 搜索引擎模式,在精确模式的基础上,对

在Linux上怎么安装和配置DenyHosts工具以便进行自动屏ip

  使用DenyHosts能够进行自动屏ip的功能,掌握DenyHosts在Linux系统中的安装是很有必要的,那么在Linux系统中要如何安装DenyHosts工具呢?安装后又要如何配置呢?这都是用户需要学习的. denyhosts是一个安全工具,用Python编写的,用于监视服务器访问日志,防止虚拟专用服务器蛮力攻击.该项目工程通过禁止超过一定次数的失败登录尝试的IP地址. 步骤一.安装denyhosts 是的,denyhosts很容易安装在Ubuntu sudo apt-get insta

Advanced Installer打包工具如何做自动升级

问题描述 AdvancedInstaller打包工具确实是很好用的,不过,对于做软件的自动升级,我做出来老是报错.有没有哪位朋友做个自动升级的,麻烦请教一下,谢谢 解决方案 解决方案二:有人知道么?解决方案三:自己做一个自动升级的程序,先判断版本号再下载压缩包,解压更新解决方案四:下一个官方的ini文件,参考一下不就行了.解决方案五:官方教程,很详细http://www.advancedinstaller.com/user-guide/tutorial-updater.html#create