lucene 分词相关的类

TokemStream

org.apache.lucene.analysis.TokenStream

一个抽象类。一个TokenStream会枚举若干个token的序列,要么来自文档的域,要门来自查询文本。

A TokenStream enumerates the sequence of tokens, either from Fields of a Document or from query text. 

TokenStream org.apache.lucene.analysis.Analyzer.tokenStream(String fieldName, Reader reader)
从reader的文本中得到一个Analyzer分词后的TokenStream。
Creates a TokenStream which tokenizes all the text in the provided Reader.

void org.apache.lucene.analysis.TokenStream.reset() throws IOException
将TokenStream的游标重置到初始位置。
Resets this stream to the beginning.

boolean org.apache.lucene.analysis.TokenStream.incrementToken() throws IOException
消费者,也就是IndexWriter使用这个方法来获得下一个token。
Consumers (i.e., IndexWriter) use this method to advance the stream to the next token. 

org.apache.lucene.analysis.tokenattributes.CharTermAttribute
一个token的词文本。
The term text of a Token.

<CharTermAttribute> CharTermAttribute org.apache.lucene.util.AttributeSource.getAttribute(Class<CharTermAttribute> attClass)
获得指定的Attribute。
The caller must pass in a Class<? extends Attribute> value. Returns the instance of the passed in Attribute contained in this AttributeSource。

Tokenizer

org.apache.lucene.analysis.Tokenizer
一个Tokenizer是一个输入为Reader的TokenStream。
A Tokenizer is a TokenStream whose input is a Reader. 

TokenFilter

org.apache.lucene.analysis.TokenFilter
一个TokenFilter是一个输入为其他TokenStream的TokenStream。用于过滤。
A TokenFilter is a TokenStream whose input is another TokenStream. 

org.apache.lucene.analysis.LowerCaseFilter
将token替换为小写。
Normalizes token text to lower case. 

org.apache.lucene.analysis.StopFilter
从一个TokenStream中去除停用词。
Removes stop words from a token stream. 

Analyzer

org.apache.lucene.analysis.KeywordAnalyzer
将整个stream作为一个token。适用于邮政编码、产品名称等。
"Tokenizes" the entire stream as a single token. This is useful for data like zip codes, ids, and some product names.

org.apache.lucene.analysis.ReusableAnalyzerBase
一个Analyzer的方便的子类,可以方便地实现TokenStream的重用。
An convenience subclass of Analyzer that makes it easy to implement TokenStream reuse.

时间: 2024-12-03 03:41:04

lucene 分词相关的类的相关文章

lucene 6.0 常用类与方法

1.目录 org.apache.lucene.store.Directory 指定索引所在目录. org.apache.lucene.store.RAMDirectory  存放于内存中的目录. org.apache.lucene.store.RAMDirectory.RAMDirectory(FSDirectory dir, IOContext context) 构造函数.把文件索引载入内存中. org.apache.lucene.store.FSDirectory 抽象类,代表磁盘中的目录.

DNN模块开发系列文章(4)——与模块开发相关的类

DNN做为一个功能强大的网站框架,它提供了提供了很多有用的类来为开发模块提供方便,以下列出几个和模块开发紧密相关的类: PortalModuleBase 说明:模块基类.所有的模块都是通过该类继承而来.这个类定义了DNN模块所要用到的方法和属性. 命名空间:DotNetNuke.Entities.Modules 文件位置:Components\Modules\PortalModuleBase.vb 常用方法: EditUrl:根据模块定义的ControlKey获取访问相应控件的Url.我们要调用

图片-Android开发相关的类文件问题

问题描述 Android开发相关的类文件问题 请问surfaceview可以支持显示出一张图片的浏览吗?如果能 该怎么调用 解决方案 不知道你具体是哪一种类文件:我这里举例:R 1. 检查Android 的SDK是否丢失需要重新下载,检查build path 2.确保class没有import Android.R: 3,错误class引用的layout的xml文件没有错误 4.检查AndroidManifest.xml文件,里边的package,layout配置文件,strings.xml等的字

推荐 几种Apache Lucene 分词系统

1. StopAnalyzer StopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能. 2. StandardAnalyzer StandardAnalyzer根据空格和符号来完成分词,还可以完成数字.字母.E-mail地址.IP地址以及中文字符的分析处理,还可以支持过滤词表,用来代替StopAnalyzer能够实现的过滤功能. 3. SimpleAnalyzer SimpleAnalyzer具备基本西文字符词汇分析的分词器,处理词汇单元时,以非字母字符作为分割符号.

WebGIS中兴趣点简单查询、基于Lucene分词查询的设计和实现

文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言 兴趣点查询是指:输入框中输入地名.人名等查询信息后,地图上可以展示出对应信息所在的地址,并且根据需求以不同方式展示出相关地址的属性信息等. 以百度地图为例:                         2.原理 所谓兴趣点查询,也就是前台输入描述信息后,后台根据该描述信息在地理数据库中查询到符合查询信息的地理数据和与此对应的属性数据,然后将数据返回给前台

Lucene分词后的结果

问题描述 我使用FieldAnalysisRequest输出的结果是[半圆.木.Φ.200].如何得到分词之后的最终结果,即经过tokenizer和filter之后的结果[半圆.木.200]?请各位指点,谢谢!急.. 解决方案 解决方案二:心塞啊,Lucene完全是盲人摸象啊...各位,指点一二也是极好的.解决方案三:过滤特别字符走ok拉...解决方案四:引用2楼attilax的回复: 过滤特别字符走ok拉... 不甚明白,能详细点不?解决方案五:我也在研究lucene问下楼主是准备对数据库的数

Spring源码解析——配置文件读取相关的类

一,整体结构图       在Spring中,定义了如下类来处理经过经过验证的Document对象,并且对文档元素及属性进行解析. 二,各个类基本介绍            1,ResourceLoader                      public interface ResourceLoader { /** Pseudo URL prefix for loading from the class path: "classpath:" */ String CLASSPAT

新人求解 ConcreteMediator类及其相关的类为什么在api找不到

问题描述 本人是新人,刚学java到中介者模式上看到ConcreteMediator,但是找不到!希望可以得到解答>> 解决方案 解决方案二:那是别人的例子里,自己写的类吧--解决方案三:谢谢,小弟后来知道了

Lucene分词后查询字符数字问题

问题描述 用的盘古分词我数据源里有个编号字段,例如SHEM170610197501MEC,可以分出shemmec,shem,170610197501,mec,shem170610197501mec这5个词但正常业务中查询时,用户很可能会输入1706或者she来进行查询,这个要怎么处理? 解决方案 解决方案二:分词系统是要和数据库的全文检索索引配合在工作的