盘古分词用自定义字典

问题描述

如图。。。。。请问下盘古分词工具怎么设置自定义字典来分词。把自带的分词删掉。。。添加自己的字典

解决方案

解决方案二:
下载字段管理工具,里面有一个dictManager.exe下载地址http://download.csdn.net/detail/fangmenglong12/5298566#comment

时间: 2024-09-27 04:28:12

盘古分词用自定义字典的相关文章

盘古分词,记灵一下

http://pangusegment.codeplex.com PanGu.dll 调用方法 初始化 在进程启动时,我们需要对盘古分词进行初始化,初始化的调用代码如下: 默认方式初始化 PanGu.Segment.Init();   这个调用将使用和 PanGu.dll 同路径下的 pangu.xml 配置文件    指定配置文件方式初始化   PanGu.Segment.Init(filename); filename 为pangu.xml 的完整路径名,如"c:\pangu.xml&quo

盘古分词-Lucen.net搜索的时候,怎么让输入的关键词先显示,然后再显示单个的字

问题描述 Lucen.net搜索的时候,怎么让输入的关键词先显示,然后再显示单个的字 我用lucene.net和盘古分词结合,对txt文档实现了搜索,但搜索结果的排序有问题,比如,我搜索"方法",盘古分词会先对"方法'进行分词,分为"方"."方法'."法",然后搜索结果会把含有"方"和"法"的文档和含有"方法"的文档都显示出来,但是我想把含有"方法"

求教关于lucene.net盘古分词器的问题

问题描述 我在搜索中加入了盘古分词器之后,用panguanalyzer替代了standardanalyzer,但是建立新的索引之后的搜索貌似是搜索到一个关键词就返回一次结果,所以搜索结果大量重复,求怎么解决....z这是搜索方法的代码,求大神解救.....privatevoidsearch(){DateTimestart=DateTime.Now;//createthesearcher//indexisplacedin"index"subdirectorystringindexDire

LuceneNet+盘古分词

问题描述 网站有1000多万数据,全站搜索使用了LuceneNet+盘古分词,网站启动后就自动加载分词文件,但是每个词第一次搜索都要几秒或上十秒以上,第二次后再搜索这个词就只使用几ms就出来了,请问有什么办法让每个词的第一次搜索都能秒显? 解决方案 解决方案二:将加载分词文件后的数据缓存起来,可以吗?解决方案三:写个软件都相关的词都自动查一遍解决方案四:引用1楼hanjun0612的回复: 将加载分词文件后的数据缓存起来,可以吗? 已经做了缓存的,就是网站启动加载后就缓存下来了解决方案五:引用2

lucene.net 3.0.3、结合盘古分词进行搜索的小例子(分页功能)

添加:2013-12-25 更新:2013-12-26 新增分页功能. 更新:2013-12-27 新增按分类查询功能,调整索引行新增记录的图片字段. 最新盘古分词dll和词典管理工具下载:http://pangusegment.codeplex.com/ 词典下载:http://pangusegment.codeplex.com/releases/view/47411  //封装类 using System; using System.Collections.Generic; using Sy

让盘古分词支持最新的Lucene.Net 3.0.3

原文:让盘古分词支持最新的Lucene.Net 3.0.3 好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考<基于MMSeg算法的中文分词类库>). 然后我知道了.Net下还有一个盘古分词(http://pangusegment.codeplex.com/),但也不支持Lucene.Net 3.0.3,网上也不少人在问,于是就下载了它的最新代码,基于L

分词工具的字典自动学习功能如何实现

问题描述 假设使用某种分词工具对训练样本进行分词.一般根据分词工具的字典将文本分隔并显示出来.我想将文本中与字典中相同的内容去掉,将分词结果剩下的部分添加到原有字典中以达到自动添加新词入词库的目的.不知应如何实现. 解决方案 解决方案二:importjava.io.*;importjava.util.*;publicclassTokenizer{privatestaticTokenizertok=newTokenizer();publicStringread(Stringpath){String

[python] 使用Jieba工具中文分词及文本聚类概念

        前面讲述了很多关于Python爬取本体Ontology.消息盒InfoBox.虎扑图片等例子,同时讲述了VSM向量空间模型的应用.但是由于InfoBox没有前后文和语义概念,所以效果不是很好,这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识.         相关文章:         [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒         [python爬虫] Seleni

如何解决数据库分词的拼写纠正问题 - PostgreSQL Hunspell 字典 复数形容词动词等变异还原

标签 PostgreSQL , Hunspell , 分词 , 复数还原 , 字典 背景 在英语中,名词通常都有复数,表示多个:形容词,过去式,动词等. 有large, larger, largest, stories, eating, did, doing, hacked这样的. 这可能会给分词带来一定的困扰,例如我们来看看PG默认的ts config怎么处理它的. 比如english tsconfig是这么处理的 postgres=# SELECT * FROM ts_debug('engl