jcseg java 中文分词-为什么无法利用jcseg进行词性标注啊?超急!!大牛们,帮帮忙啊。

问题描述

为什么无法利用jcseg进行词性标注啊?超急!!大牛们,帮帮忙啊。

我用的是jcseg-1.9.5。我在配置文件中已设置jcseg.loadpos=1,但对word调用getPartSpeech()方法只有几个标点得到标注,其它词都没有标注词性。大牛们,项目紧急,帮帮忙啊!

解决方案

同样的问题,我也被困扰了好久~

时间: 2024-12-31 03:07:31

jcseg java 中文分词-为什么无法利用jcseg进行词性标注啊?超急!!大牛们,帮帮忙啊。的相关文章

用java Apache Axis 1.2.1 连接 iis 部署的 https webservice 问题,帮帮忙,谢谢!

问题描述 别人用.net开发了一个webservice部署在iis选了需要客户段证书使用https协议环境描述:1.jdk1.52.ApacheAxis1.2.13.在装iis的服务器(win2003)上装了证书服务器部署过程如下:1.在iis上生成证书请求,2.在证书服务器上认证通过,并导入iis服务器3.在客户端申请浏览器证书,并导入浏览器,用ie访问webservice成功,4.导出ie中的个人证书,导入keystore里5.用axis调用webservice程序基本完毕,在调用axis前

Lucene 3.6.2入门(14) SolrJ操作索引和搜索文档以及整合中文分词

package com.jadyer.solrj; import java.util.ArrayList; import java.util.List; import org.apache.solr.client.solrj.SolrQuery; import org.apache.solr.client.solrj.SolrServer; import org.apache.solr.client.solrj.SolrServerException; import org.apache.sol

Lucene 3.6.2入门(4) 中文分词器

package com.jadyer.lucene; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.SimpleAnalyzer; import org.apache.lucene.analysis.StopAnalyzer; import org.apache.lucene

Ubuntu下Java调用IKAnalyzer中文分词程序失效

庖丁解牛等其它中文分词程序比较后发现,IKAnalyzer的中文分词效果好,程序调用简单.所以采用IKAnalyzer作为我们中文分词的程序. 调用IKAnalyzer来进行中文分词的代码十分简单:  代码如下 复制代码 /** * 传入一个中文语句,返回一个List列表,列表中的每一个元素是一个String类型的分词之后的中文词组 */ public static ArrayList<String> testJe(String testString) throws Exception {  

11大Java开源中文分词器的使用方法和分词效果对比

本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断. 11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: 从上面的定义我们知道,在Java中,同样的方法名称和参数,但是返回值不同,这种情况不可以使用重载. 这两个方法的区别在于返回值,每一个分词器都可能有多种分词

张东谈利用中文分词打造极品软文

现在有很多站长利用软文来做网络营销和网站优化,那么我们如何让搜索引擎对我们的文章更加青睐,又如何将软文结合百度中文分词技术来获得更多的流量呢,今天张东就为大家分享利用百度中文分词技术打造极品软文的技巧. 一.百度中文分词技术简介 百度中文分词技术是百度搜索引擎算法的核心技术之一,指的是将一个汉字序列切分成一个一个单独的词.主要的分词方法有以下几点: 1.基于字符串的分词,又叫机械分词方法,将汉字序列与百度词库进行对比后按照不同的扫描方式进行分词,按扫描方向的不同有 1)正向最大匹配法(由左到右的

求同存异,共创双赢 - 基于对抗网络的利用不同分词标准语料的中文分词方法 | 论文访谈间 #06

在中文信息处理中,分词(word segmentation)是一项基本技术,因为中文的词汇是紧挨着的,不像英文有一个天然的空格符可以分隔开不同的单词.虽然把一串汉字划分成一个个词对于汉语使用者来说是很简单的事情,但对机器来说却很有挑战性,所以一直以来分词都是中文信息处理领域的重要的研究问题.  如今 90% 乃至 95% 以上的中文分词准确率已不是什么难题,这得益于模型和算法上的不断进步.在传统 CRF 中,特征需要人工设定,因此大量繁杂的特征工程将不可避免.近几年深度学习的发展给很多研究问题带

asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取_应用技巧

比如标题是:腾讯QQ 2006 珊瑚虫集成版 v4.5b 分词后:[此资源关键词:腾讯 QQ 珊瑚虫 集成 ] 并且把关键词做成专题,可以为每个内容页面生成相关连接了 用CSW中文分词组件 下载:http://www.vgoogle.net/Product_CSW.asp 下面是我的ASP代码,比较粗浅,但实用 codecsw 得到输出的所有分词结果,用它的组建里面有个ASP文件,你一看就知道怎么得到分词结果了,这个不详细说了. 复制代码 代码如下: fcon=split(htm," "

开源中文分词框架分词效果对比smartcn与IKanalyzer

一.引言: 中文分词一直是自然语言处理的一个痛处,早在08年的时候,就曾经有项目涉及到相关的应用(Lunce构建全文搜索引擎),那时的痛,没想到5年后的今天依然存在,切分效果.扩展支持.业务应用等方面依然不甚理想.收费的版本不提了,原因自不必言表,开源版本中,发现之前曾经活跃的版本,大多已经没落(好几年没更新了),存活下来的寥寥无几.我是一个守旧的人,评估版本的选择有些保守,至少目前为止,只看1.0正式版本之后的版本,0.XX的不在考虑范围之内,用了一个周末的时间,对比了十多款的样子,个人感觉源