Apache Lucene 5.x 集成中文分词库 IKAnalyzer

Apache Lucene 5.x 集成中文分词库 IKAnalyzer

前面写过 Apache Lucene 5.x版本 示例,为了支持中文分词,我们可以使用中文分词库
IKAnalyzer

由于IKAnalyzer使用的是4.x版本的Analyzer接口,该接口和5.x版本不兼容,因此,如果想要在5.x版本中使用IKAnalyzer,我们还需要自己来实现5.x版本的接口。

通过看源码,发现需要修改两个接口的类。

第一个是Tokenizer接口,我们写一个IKTokenizer5x

/**
 * 支持5.x版本的IKTokenizer
 *
 * @author liuzh
 */
public class IKTokenizer5x extends Tokenizer {
    private IKSegmenter _IKImplement;
    private final CharTermAttribute termAtt = (CharTermAttribute)this.addAttribute(CharTermAttribute.class);
    private final OffsetAttribute offsetAtt = (OffsetAttribute)this.addAttribute(OffsetAttribute.class);
    private final TypeAttribute typeAtt = (TypeAttribute)this.addAttribute(TypeAttribute.class);
    private int endPosition;

    public IKTokenizer5x() {
        this._IKImplement = new IKSegmenter(this.input, true);
    }

    public IKTokenizer5x(boolean useSmart) {
        this._IKImplement = new IKSegmenter(this.input, useSmart);
    }

    public IKTokenizer5x(AttributeFactory factory) {
        super(factory);
        this._IKImplement = new IKSegmenter(this.input, true);
    }

    public boolean incrementToken() throws IOException {
        this.clearAttributes();
        Lexeme nextLexeme = this._IKImplement.next();
        if(nextLexeme != null) {
            this.termAtt.append(nextLexeme.getLexemeText());
            this.termAtt.setLength(nextLexeme.getLength());
            this.offsetAtt.setOffset(nextLexeme.getBeginPosition(), nextLexeme.getEndPosition());
            this.endPosition = nextLexeme.getEndPosition();
            this.typeAtt.setType(nextLexeme.getLexemeTypeString());
            return true;
        } else {
            return false;
        }
    }

    public void reset() throws IOException {
        super.reset();
        this._IKImplement.reset(this.input);
    }

    public final void end() {
        int finalOffset = this.correctOffset(this.endPosition);
        this.offsetAtt.setOffset(finalOffset, finalOffset);
    }
}

该类只是在IKTokenizer基础上做了简单修改,和原方法相比修改了public
IKTokenizer(Reader in, boolean useSmart)
这个构造方法,不在需要Reader参数。

另一个接口就是AnalyzerIKAnalyzer5x:

/**
 * 支持5.x版本的IKAnalyzer
 *
 * @author liuzh
 */
public class IKAnalyzer5x extends Analyzer {

    private boolean useSmart;

    public boolean useSmart() {
        return this.useSmart;
    }

    public void setUseSmart(boolean useSmart) {
        this.useSmart = useSmart;
    }

    public IKAnalyzer5x() {
        this(false);
    }

    public IKAnalyzer5x(boolean useSmart) {
        this.useSmart = useSmart;
    }

    @Override
    protected TokenStreamComponents createComponents(String fieldName) {
        IKTokenizer5x _IKTokenizer = new IKTokenizer5x(this.useSmart);
        return new TokenStreamComponents(_IKTokenizer);
    }
}

这个类的接口由 
protected TokenStreamComponents createComponents(String fieldName, Reader in) 
变成了 
protected TokenStreamComponents createComponents(String fieldName)

方法的实现中使用了上面创建的IKTokenizer5x

定义好上面的类后,在Lucene中使用IKAnalyzer5x即可。

针对IKAnalyzer5x我们写个简单测试:

/**
 * IKAnalyzer5x 测试
 *
 * @author liuzh
 */
public class IKAnalyzer5xTest {
    public static void main(String[] args) throws IOException {
        Analyzer analyzer = new IKAnalyzer5x(true);
        TokenStream ts = analyzer.tokenStream("field",
                new StringReader(
                    "IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。" +
                    "从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。" +
                    "最初,它是以开源项目Luence为应用主体的," +
                    "结合词典分词和文法分析算法的中文分词组件。从3.0版本开始," +
                    "IK发展为面向Java的公用分词组件,独立于Lucene项目," +
                    "同时提供了对Lucene的默认优化实现。在2012版本中," +
                    "IK实现了简单的分词歧义排除算法," +
                    "标志着IK分词器从单纯的词典分词向模拟语义分词衍化。"));

        OffsetAttribute offsetAtt = ts.addAttribute(OffsetAttribute.class);
        try {
            ts.reset();
            while (ts.incrementToken()) {
                System.out.println(offsetAtt.toString());
            }
            ts.end();
        } finally {
            ts.close();
        }
    }
}

输出结果:

ik
analyzer
是
一个
开源
的
基于
java
语言
开发
的
轻量级
的
中文
分词
工具包
从
2006年
12月
推出
1.0版

由于结果较长,省略后面的输出内容。

时间: 2024-08-22 14:32:09

Apache Lucene 5.x 集成中文分词库 IKAnalyzer的相关文章

jieba.NET中文分词及jieba.NET与Lucene.Net的集成

jieba中文分词的.NET版本:jieba.NET jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字). .NET平台上常见的分词组件是盘古分词,但是已经好久没有更新了.最明显的是内置词典,jieba的词典有50万个词条,而盘古的词典是17万,这样会造成明显不同的分词效果.另外,对于未登录词,jieba"采用了基于汉字成词能力的HMM模型,使用了Viterbi算法",效果看起来也不错. 基于以上两点,加上对于中文分词的兴趣

Lucene索引和检索中文文件的问题

问题描述 lucene初学者,基础不好,碰到以下问题,恳请各位大侠指导,小女子感激不尽!用的是IKAnalyzer2012_u6.jar和lucene-core-3.6.2.jar是对本地的文件进行的索引和检索,做的web版的1.能检索英文的,就是检索不了中文的2.英文的检索出来的doc.get("contents")的值是空的,但是文件名和路径能读出来(附件里有代码)IndexUtil1.javapackage com.lium.bean;import java.io.Buffere

使用Apache Lucene和Solr进行位置感知搜索

不管是通过支持 GPS 的智能手机查找最近的咖啡馆,还是通过社交站点查找附近的朋友,或是查看特定城市中运输某种商品的所有货车,越来越多的人和企业都使用位置感知的搜索服务.创建位置感知搜索服务通常属于昂贵的专用解决方案的一部分,并且一般由地理空间专家完成.不过,很流行的开源搜索库 Apache Lucene 和强大的 Lucene 搜索服务器 Apache Solr 最近添加了空间位置功能. 地理位置在空间搜索中至关重要!地理位置不仅在地产中至尊为王,将其用在搜索中还能帮助位于特定位置的用户快速找

《深入理解Elasticsearch(原书第2版)》——第2章 查询DSL进阶 2.1 Apache Lucene默认评分公式解释

第2章 查询DSL进阶 在上一章,我们了解了什么是Apache Lucene,它的整体架构,以及文本分析过程是如何完成的.之后,我们还介绍了Lucene的查询语言及其用法.除此之外,我们也讨论了Elasticsearch,讨论了它的架构,以及一些核心概念.在本章,我们将深入研究Elasticsearch的查询DSL(Domain Specific Language).在了解那些高级查询之前,我们将先了解Lucene评分公式的工作原理.到本章结束,将涵盖以下内容: Lucene默认评分公式是如何工

《深入理解Elasticsearch(原书第2版)》一第2章查询DSL进阶2.1 Apache Lucene默认评分公式解释

第2章 查询DSL进阶 在上一章,我们了解了什么是Apache Lucene,它的整体架构,以及文本分析过程是如何完成的.之后,我们还介绍了Lucene的查询语言及其用法.除此之外,我们也讨论了Elasticsearch,讨论了它的架构,以及一些核心概念.在本章,我们将深入研究Elasticsearch的查询DSL(Domain Specific Language).在了解那些高级查询之前,我们将先了解Lucene评分公式的工作原理.到本章结束,将涵盖以下内容: Lucene默认评分公式是如何工

《深入理解Elasticsearch(原书第2版)》一第1章Elasticsearch简介1.1 Apache Lucene简介

第1章 Elasticsearch简介 我们希望读者通过阅读本书来获取和拓展关于Elasticsearch的基本知识.假设读者已经知道如何使用Elasticsearch进行单次或批量索引创建,如何发送请求检索感兴趣的文档,如何使用过滤器缩减检索返回文档的数量,以及使用切面/聚合(faceting/aggregation)机制来计算数据的一些统计量.不过,在接触Elasticsearch提供的各种令人激动的功能之前,希望读者能对Apache Lucene有一个快速的了解,因为Elasticsear

《深入理解ElasticSearch》——第3章 底层索引控制3.1 改变Apache Lucene的评分方式

第3章 底层索引控制 在上一章,我们了解了Apache Lucene如何为文档评分,什么是查询重写,如何利用ElasticSearch 0.90中的新特性,即二次评分来影响搜索返回文档的得分.同时我们也讨论了如何使用单个HTTP请求发送多个查询或准实时读取请求,以及如何对数据进行基于多值字段或嵌套文档的排序.除此之外,还介绍了如何使用数据更新 API以及如何通过使用过滤器优化查询.最后,我们介绍了如何通过使用过滤器和作用域来缩减或增加用于切面计算的文档数量.本章涵盖以下内容: 如何使用不同的评分

Apache Lucene 6.6.0 发布,Java 搜索引擎

Apache Lucene 6.6.0 发布了,值得关注的更新是: 添加一个并发的 SortedSet facets 实现 还包括许多 Bug 修复.改进.优化和其他的更新,详情点此参阅. 下载地址 Lucene 是 Apache 软件基金会的一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎.Lucene 的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎.

《深入理解Elasticsearch(原书第2版)》一2.2.2 回到Apache Lucene

2.2.2 回到Apache Lucene 现在我们回到Lucene.如果你还记得Lucene倒排索引是如何构建的,你会指出倒排索引中包含了词项.词频以及文档指针(如果忘了,请重新阅读1.1节).现在我们看看之前存储到clients索引中的数据大概是如何组织的. Term这一列非常重要.如果我们去探究Elasticsearch和Lucene的内部实现,将会发现前缀查询被改写为下面这种查询: 我们可以用Elasticsearch API来检查重写片段.首先,使用Explain API执行如下命令: