Lucene分词后的结果

问题描述

我使用FieldAnalysisRequest输出的结果是【半圆、木、Φ、200】。如何得到分词之后的最终结果,即经过tokenizer和filter之后的结果【半圆、木、200】?请各位指点,谢谢!急。。

解决方案

解决方案二:
心塞啊,Lucene完全是盲人摸象啊。。。各位,指点一二也是极好的。
解决方案三:
过滤特别字符走ok拉...
解决方案四:
引用2楼attilax的回复:

过滤特别字符走ok拉...

不甚明白,能详细点不?
解决方案五:
我也在研究lucene问下楼主是准备对数据库的数据做索引还是对文档??
解决方案六:
引用4楼hn6153131的回复:

我也在研究lucene问下楼主是准备对数据库的数据做索引还是对文档??

对数据库做索引我用的solr,你呢。你研究的怎么样了?

时间: 2024-09-20 18:14:13

Lucene分词后的结果的相关文章

Lucene分词后查询字符数字问题

问题描述 用的盘古分词我数据源里有个编号字段,例如SHEM170610197501MEC,可以分出shemmec,shem,170610197501,mec,shem170610197501mec这5个词但正常业务中查询时,用户很可能会输入1706或者she来进行查询,这个要怎么处理? 解决方案 解决方案二:分词系统是要和数据库的全文检索索引配合在工作的

lucene 分词相关的类

TokemStream org.apache.lucene.analysis.TokenStream 一个抽象类.一个TokenStream会枚举若干个token的序列,要么来自文档的域,要门来自查询文本. A TokenStream enumerates the sequence of tokens, either from Fields of a Document or from query text.  TokenStream org.apache.lucene.analysis.Anal

WebGIS中兴趣点简单查询、基于Lucene分词查询的设计和实现

文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言 兴趣点查询是指:输入框中输入地名.人名等查询信息后,地图上可以展示出对应信息所在的地址,并且根据需求以不同方式展示出相关地址的属性信息等. 以百度地图为例:                         2.原理 所谓兴趣点查询,也就是前台输入描述信息后,后台根据该描述信息在地理数据库中查询到符合查询信息的地理数据和与此对应的属性数据,然后将数据返回给前台

推荐 几种Apache Lucene 分词系统

1. StopAnalyzer StopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能. 2. StandardAnalyzer StandardAnalyzer根据空格和符号来完成分词,还可以完成数字.字母.E-mail地址.IP地址以及中文字符的分析处理,还可以支持过滤词表,用来代替StopAnalyzer能够实现的过滤功能. 3. SimpleAnalyzer SimpleAnalyzer具备基本西文字符词汇分析的分词器,处理词汇单元时,以非字母字符作为分割符号.

Lucene 3.6.2入门(14) SolrJ操作索引和搜索文档以及整合中文分词

package com.jadyer.solrj; import java.util.ArrayList; import java.util.List; import org.apache.solr.client.solrj.SolrQuery; import org.apache.solr.client.solrj.SolrServer; import org.apache.solr.client.solrj.SolrServerException; import org.apache.sol

开源中文分词框架分词效果对比smartcn与IKanalyzer

一.引言: 中文分词一直是自然语言处理的一个痛处,早在08年的时候,就曾经有项目涉及到相关的应用(Lunce构建全文搜索引擎),那时的痛,没想到5年后的今天依然存在,切分效果.扩展支持.业务应用等方面依然不甚理想.收费的版本不提了,原因自不必言表,开源版本中,发现之前曾经活跃的版本,大多已经没落(好几年没更新了),存活下来的寥寥无几.我是一个守旧的人,评估版本的选择有些保守,至少目前为止,只看1.0正式版本之后的版本,0.XX的不在考虑范围之内,用了一个周末的时间,对比了十多款的样子,个人感觉源

Lucene 3.6.2入门(5) 自定义停用词分词器和同义词分词器

首先是用于显示分词信息的HelloCustomAnalyzer.java package com.jadyer.lucene; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.toke

Lucene 3.6.2入门(4) 中文分词器

package com.jadyer.lucene; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.SimpleAnalyzer; import org.apache.lucene.analysis.StopAnalyzer; import org.apache.lucene

Lucene的Highlighter如何才能将不分词直接索引的字段加高亮?

问题描述 [背景] 用户要求输入文章的完整标题也能将该文章完整检索下来,如"商海里穿梭的鱼:偷懒的6条原则".[我的想法] 在设计时多加一个字段用于对文章的标题不分词直接索引,这样就能实现用户要求的功能.但由于要结合Highlighter将用户输入的短语用标签对<font></font>高亮显示,而Highlighter的getBestFragment()方法又必须要使用分词器或Token进行分词,这样把标题分词后就导致无法对整个文章标题加高亮了. 对于这个问题