lucene 4.6以上和4.6一下分词需要注意的

/**
* 得到分词list

* @param text
* @param analyzer
* @return
*/
public static List<String> getIkFc(String text, Analyzer analyzer) {

StringReader reader = new StringReader(text);
List<String> list = new ArrayList<String>();

TokenStream ts;
try {
ts = analyzer.tokenStream("", reader);
CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);
ts.reset();//lucene 4.6以上要加这个,4.6以前不需要,本人测试的是4.2 .0不需要,4.10.4需要
while (ts.incrementToken()) {
list.add(term.toString());
}
} catch (IOException e) {
e.printStackTrace();
}

System.out.println(list);
reader.close();
return list;

}

时间: 2024-10-02 07:28:21

lucene 4.6以上和4.6一下分词需要注意的的相关文章

lucene.net 3.0.3、结合盘古分词进行搜索的小例子(分页功能)

添加:2013-12-25 更新:2013-12-26 新增分页功能. 更新:2013-12-27 新增按分类查询功能,调整索引行新增记录的图片字段. 最新盘古分词dll和词典管理工具下载:http://pangusegment.codeplex.com/ 词典下载:http://pangusegment.codeplex.com/releases/view/47411  //封装类 using System; using System.Collections.Generic; using Sy

Lucene 3.6.2入门(1) 第一个程序:Hello Word

package com.jadyer.lucene; import java.io.File; import java.io.FileReader; import java.io.IOException; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; i

使用Lucene.Net实现全文检索

原文:使用Lucene.Net实现全文检索 目录 一 Lucene.Net概述 二 分词 三 索引 四 搜索 五 实践中的问题   一 Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库,其源码包括"核心"与"外围"两部分.外围部分实现辅助功能,而核心部分包括: Lucene.Net.Index 提供索引管理,词组排序. Lucene.Net.Search 提供查询相关功能. Lucene.Net.Store 支持数据存储管理,主要包括I/

Lucene全文检索基础

---------------------------------------------------------------------------------------------------------------[版权申明:本文系作者原创,转载请注明出处]文章出处:http://blog.csdn.net/sdksdk0/article/details/51873672作者:朱培     ID:sdksdk0 --------------------------------------

整合Lucene 4.10.1 与IK Analyzer

目录[-] 建立java项目 一个示例: 第二个示例: 参考: 更多资料: 注意,IK Analyzer需要使用其下载列表中的 IK Analyzer 2012FF_hf1.zip,否则在和Lucene 4.10配合使用时会报错.  我使用 intellij IDEA 12进行的测试.  建立java项目 建立项目HelloLucene,导入Lucene的几个库."File"->"Project Structure"-> 将IK Analyzer 201

WebGIS中兴趣点简单查询、基于Lucene分词查询的设计和实现

文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言 兴趣点查询是指:输入框中输入地名.人名等查询信息后,地图上可以展示出对应信息所在的地址,并且根据需求以不同方式展示出相关地址的属性信息等. 以百度地图为例:                         2.原理 所谓兴趣点查询,也就是前台输入描述信息后,后台根据该描述信息在地理数据库中查询到符合查询信息的地理数据和与此对应的属性数据,然后将数据返回给前台

13 款开源的全文检索引擎

1.&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; Lucene Lucene的开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,没有中文分词引擎,需要自己去实现,因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索,但linkedin和twitter有分别对Lucene改进的实时搜素. 其中Lucene

汉字字符串,怎么按汉字切分!

问题描述 比如是:"我是中国人",怎么切分成"{"我""是"中国人}" 解决方案 解决方案二:随手写的看看对不对stringstr="我是中国人":string[]sArray1=str.Split(newchar[2]{'我','是'});foreach(stringiinsArray1){Console.WriteLine(i.ToString());}解决方案三:这牵扯到汉字分词了google:lue

商品搜索引擎---分词(插件介绍与入门实例)

版权声明:本文为博主原创文章,转载注明出处http://blog.csdn.net/u013142781 目录(?)[+] 最近刚好在学习搜索引擎分词,有了解一些分词插件,在这里给各位猿友分享一下. 本文主要介绍四个分词插件(ICTCLAS.IKAnalyzer.Ansj.Jcseg)和一种自己写算法实现的方式,以及一些词库的推荐. 一.ICTCLAS 1.1.介绍 中文词法分析是中文信息处理的基础与关键.中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS