Lucene.net查询不准确可能是什么原因

问题描述

我用盘古分词+Lucene.net做了一个全文检索的功能，但是有一个bug,比如输入“质量-安全”，结果应该是只含“质量”关键字不含“安全”关键字，但是实际查询出来的，有个别结果（大部分结果符合要求）既有“质量”关键字，也有“安全”关键字。有哪位熟悉Lucene.net的老师指导一下，出现这个bug可能的原因是什么？可能是建索引那里的问题吗？还是分词有问题？

解决方案

解决方案二：
上代码创建索引privatestaticAnalyzer_analyzer;privatestaticAnalyzerAnalyzer{get{if(_analyzer==null){_analyzer=newPanGuAnalyzer();}return_analyzer;}}privatevoidButton_Click(objectsender,RoutedEventArgse){varindexFolder=System.IO.Path.Combine(AppDomain.CurrentDomain.BaseDirectory,AppSettings.ChapterIndexDir);if(!System.IO.Directory.Exists(indexFolder)){System.IO.Directory.CreateDirectory(indexFolder);}vardirectory=FSDirectory.Open(newSystem.IO.DirectoryInfo(indexFolder));//创建索引（索引存放目录，盘古解析器，索引创建方式【true:重新新建索引；false:从旧的索引执行追加】，文件长度是否限制）varwriter=newIndexWriter(directory,Analyzer,true,IndexWriter.MaxFieldLength.UNLIMITED);ISessionsession=NhbServiceHelper.OpenSession();stringqueryString=@"selects.id,s.name,s.contenfromd_std_documents";NHibernate.IQueryquery=session.CreateSQLQuery(queryString);IEnumerablelist=query.List();try{foreach(object[]iteminlist){CustomFieldCustom=newCustomField(){ID=item[0].ToString(),Name=ConvertStringIsNull(item[1]),Content=ConvertStringIsNull(item[2])};DoSingleIndexCreation(writer,Custom);}writer.Optimize();writer.Dispose();MessageBox.Show("创建索引成功！");}catch(Exceptionex){MessageBox.Show("创建索引失败:"+ex.Message);}}///<summary>///创建索引Document和往文档写入索引内容///Document是索引文档，可理解为数据库里的记录///Filed是索引文档中的字段，可理解为数据库里的字段（字段名称，是否存储，是否索引）///</summary>///<paramname="writer"></param>///<paramname="record"></param>privatevoidDoSingleIndexCreation(IndexWriterwriter,CustomFieldrecord){vardoc=newDocument();//不分词索引doc.Add(newField("编号",record.ID,Field.Store.YES,Field.Index.NOT_ANALYZED));//既创建分词索引、又创建不分词索引doc.Add(newField("文档名称",record.Name,Field.Store.YES,Field.Index.ANALYZED));doc.Add(newField("文档名称",record.Name,Field.Store.YES,Field.Index.NOT_ANALYZED));if(!string.IsNullOrEmpty(record.Content)){doc.Add(newField("文档内容",record.Content,Field.Store.YES,Field.Index.ANALYZED));doc.Add(newField("文档内容",record.Content,Field.Store.YES,Field.Index.NOT_ANALYZED));}writer.AddDocument(doc);}

查询///<summary>///当前使用的查询索引///</summary>///<paramname="key"></param>///<returns></returns>publicstaticDictionary<string,StandardInfoModel>GetResultData(stringkey,refList<string>keyToken){Dictionary<string,StandardInfoModel>lstResultData=newDictionary<string,StandardInfoModel>();if(string.IsNullOrWhiteSpace(AppSettings.ChapterIndexDir))returnnewDictionary<string,StandardInfoModel>();DirectorydirChapter=FSDirectory.Open(AppSettings.ChapterIndexDir);IndexSearchersearcher=newIndexSearcher(dirChapter,true);BooleanQuerybooleanQuery=newBooleanQuery();vartermList=GetSplitTerm(key);string[]fields={"文档名称","文档内容"};foreach(varitemintermList){//Occur的取值及含义MUST与SHOULD或MUST_NOT非keyToken.Add(item.Key);MultiFieldQueryParserparser=newMultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_30,fields,analyzer);Queryquery=parser.Parse(item.Key);booleanQuery.Add(query,(Occur)item.Value);}}//TopScoreDocCollector盛放查询结果的容器TopScoreDocCollectorcollector=TopScoreDocCollector.Create(100000,true);//根据booleanQuery进行查询，查询结果放入collector容器searcher.Search(booleanQuery,collector);//TopDocs指定0到collector.TotalHits即所有查询结果中的文档ScoreDoc[]scoreDocArr=collector.TopDocs(0,collector.TotalHits).ScoreDocs;for(inti=0;i<scoreDocArr.Length;i++){Documentdocument=searcher.Doc(scoreDocArr[i].Doc);stringID=document.Get("编号");if(!lstResultData.ContainsKey(ID)){StandardInfoModeldocStandard=newStandardInfoModel();docStandard.ID=ID;docStandard.Name=document.Get("文档名称");stringcontent=document.Get("文档内容");lstResultData.Add(ID,docStandard);}else{lstResultData[ID].LstChapter.Add(document.Get("文档内容"));}}returnlstResultData;}///<summary>///获取每个关键字的最小分词成员Term///</summary>///<paramname="searchText"></param>///<returns></returns>publicstaticDictionary<string,object>GetSplitTerm(stringsearchText){Dictionary<string,object>lstResult=newDictionary<string,object>();Dictionary<string,object>lstSearchKey=GetSplitSearchKey(searchText);boolisFirst=true;foreach(variteminlstSearchKey){if(isFirst){lstResult.Add(item.Key,item.Value);isFirst=false;}TokenStreamtokenStream=analyzer.TokenStream(item.Key,newSystem.IO.StringReader(item.Key));//PanGu.Setting.PanGuSettings.Config.MatchOptions.SynonymOutput=true;boolhasNext=tokenStream.IncrementToken();//用于得到下一个TokenLucene.Net.Analysis.Tokenattributes.ITermAttributeita;while(hasNext){ita=tokenStream.GetAttribute<Lucene.Net.Analysis.Tokenattributes.ITermAttribute>();if(!lstResult.Keys.Contains(ita.Term)){lstResult.Add(ita.Term,item.Value);}hasNext=tokenStream.IncrementToken();}tokenStream.CloneAttributes();}analyzer.Close();returnlstResult.Distinct().ToDictionary(l=>l.Key,l=>l.Value);}///<summary>///如果关键字中存在逻辑符号，先拆分///</summary>///<paramname="searchText"></param>///<returns></returns>publicstaticDictionary<string,object>GetSplitSearchKey(stringsearchText){Dictionary<string,object>listResult=newDictionary<string,object>();Occuroccur=Occur.SHOULD;if(searchText.Contains("+")||searchText.Contains("-")){string[]strArr=searchText.Split(newchar[]{'+','-'},StringSplitOptions.None);for(inti=0;i<strArr.Length;i++){if(!string.IsNullOrEmpty(strArr[i])&&!listResult.Keys.Contains(strArr[i])){if(i==0){occur=searchText.Substring(0,1).Contains("-")?Occur.MUST_NOT:Occur.SHOULD;listResult.Add(strArr[0],occur);}else{intstartIndex=searchText.IndexOf(strArr[i-1])+strArr[i-1].Length;occur=searchText.Substring(startIndex,1).Contains("+")?Occur.MUST:Occur.MUST_NOT;listResult.Add(strArr[i],occur);}}}}else{listResult.Add(searchText,occur);}returnlistResult;}

解决方案三：
同问，我也遇到这个问题了，搜索“美丽”有结果，搜索“美”就没有结果了
解决方案四：
引用2楼liuruxi622的回复:

同问，我也遇到这个问题了，搜索“美丽”有结果，搜索“美”就没有结果了

是分词这方面的问题吧
解决方案五：
我的问题解决了，分词没问题，是Query的问题，也就是下面这段代码string[]fields={"文档名称","文档内容"};foreach(varitemintermList){//Occur的取值及含义MUST与SHOULD或MUST_NOT非keyToken.Add(item.Key);MultiFieldQueryParserparser=newMultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_30,fields,analyzer);Queryquery=parser.Parse(item.Key);booleanQuery.Add(query,(Occur)item.Value);}}我觉得你的问题应该也是这个原因，Lucene.net有很多Query，有些是只能查词组不能查到单个的字，有些是可以加通配符查询比如查三国可以查到三国演义。建议你把Lucene.net的各种Query弄明白，然后根据自己的需求，去选择合适的Query。
解决方案六：
该回复于2015-08-15 00:03:31被版主删除

时间： 2024-08-30 01:14:28

Lucene.net查询不准确可能是什么原因

问题描述

解决方案

Lucene.net查询不准确可能是什么原因的相关文章

在jsp页面中显示lucene的查询结果，报错：org.apache.jasper.JasperException: Java heap space

百度统计中索引量与site命令查询数差异较大的原因

app-调用百度API做了个身份证信息查询APP,询问程序不能正常运行原因

用的lucene 为什么查询的结果重复呢

lucene 范围查询及其原理

WebGIS中兴趣点简单查询、基于Lucene分词查询的设计和实现

Lucene分页只能查询是对搜索返回的结果进行分页，而不是对搜索结果的总数量进行分页，因此我们搜索的时候都是返回前n条记录？

lucene 查询语法

在应用中加入全文检索功能——基于Java的全文索引引擎Lucene简介