Lucene 3.0.0之样例解析(4)-IndexFiles.java

一. TermHashPerField.add()方法

这一章继续上面的内容, 上一章谈到TermHashPerField.add()方法就是把一个Term加入到posting表的过程, 那么下面我将从算法的角度来分析这个add()方法:

final　char[]　tokenText　=　termAtt.termBuffer();; final　int　tokenTextLen　=　termAtt.termLength();

这两行主要做的事情就是获取当前需要分析的单词的内容以及长度.

int　downto　=　tokenTextLen; int　code　=　0; while　(downto　>　0)　{ 　 char　ch　=　tokenText[--downto];


　 if　(ch　>=　UnicodeUtil.UNI_SUR_LOW_START　&&　ch　<=　UnicodeUtil.UNI_SUR_LOW_END)　{

　　 if　(0　==　downto)　{

　　　 //　Unpaired

　　　 ch　=　tokenText[downto]　=　UnicodeUtil.UNI_REPLACEMENT_CHAR;

　　 }　else　{

　　　 final　char　ch2　=　tokenText[downto-1];

　　　 if　(ch2　>=　UnicodeUtil.UNI_SUR_HIGH_START　&&　ch2　<=　UnicodeUtil.UNI_SUR_HIGH_END)　{

　　　　 //　OK:　high　followed　by　low.　This　is　a　valid

　　　　 //　surrogate　pair.

　　　　 code　=　((code*31)　+　ch)*31+ch2;

　　　　 downto--;

　　　　 continue;

　　　 }　else　{

　　　　 //　Unpaired

　　　　 ch　=　tokenText[downto]　=　UnicodeUtil.UNI_REPLACEMENT_CHAR;

　　　 }

　　 }

　 }　else　if　(ch　>=　UnicodeUtil.UNI_SUR_HIGH_START　&&　(ch　<=　UnicodeUtil.UNI_SUR_HIGH_END　||

　　　　　　　　　　　　　　　　　　　　　　　　　　　 ch　==　0xffff))　{

　　 //　Unpaired　or　0xffff

　　 ch　=　tokenText[downto]　=　UnicodeUtil.UNI_REPLACEMENT_CHAR;

　 }

　 code　=　(code*31)　+　ch; }

时间： 2024-11-08 19:25:41

Lucene 3.0.0之样例解析(4)-IndexFiles.java的相关文章

Lucene 3.0.0 之样例解析(2)-IndexFiles.java

这一小结的内容我将大概讲讲IndexFiles的一个过程. 为了方便查看, 还是把IndexFile.java的源代码放在前面. 1: public class IndexFiles { 2: 3: private IndexFiles() {} 4: 5: static final File INDEX_DIR = new File("index"); 6: 7: /** Index all text files under a directory. */ 8: public sta

Lucene 3.0.0之样例解析(5)-IndexFiles.java

之前我谈到了把Term加入到Posting表中的过程, 接下来我将大致说说把Posting表写入到文件中的过程. 这些内容我看得不算仔细, 之后有时间可以详细的扩展一下, 先留个脚印在这儿 : 之前的准备: 这六步就是写入前的前期准备工作, 当调用了IndexWriter.Close()过程后, 写入就开始了. 第6)步是新建一个段索引的状态, 接下来的步骤是:

Lucene 3.0.0 之样例解析(3)-IndexFiles.java

一. consumer的来源接着上一小节的内容, 还是从这一段程序(位于DocumentWriter.updateDocument(Document, Analyzer, Term) 中继续. try { // This call is not synchronized and does all the // work final DocWriter perDoc = state.consumer.processDocument(); // This call is synchronized

Lucene 3.0.0 之样例解析(1)-配置Lucene的源代码

从lucene.apache.org上面下载最新版本的Lucene源代码(目前是3.0.0), IDE我选择的Eclipse, 我也不太懂java, 不过非常想能够看看Lucene的底层的运作机制和一些技巧. 下载的包需要是后缀有src的, 我主要想看看源代码的内容, 所以就没有下载编译好的二进制包从Eclipse的File->New->Java 选择 Create Project From exsiting Source, 然后选择源代码中的src目录, 自己取一个喜欢的名字, 选择确定后

Lucene 3.0.0细节初窥(1)-深入探索Lucene的consumer与processor

对于Lucene 3.0.0的线程模型我非常的感兴趣, 因为对于多线程我也是最近才接触, 别看我接触程序都快十年了, 有几个地方我一直非常的遗憾 : 没有写过网络相关的代码, 没有写过多线程程序, 没有写过数据库相关的内容, 没有写过Linux相关的程序 . 可能各位会觉得非常奇怪了: 那你这十年干嘛去了? 这不是基本上等同于不懂程序啊! (–_-) 我花了6年的时间巩固了算法和数据结构基础, 另外4年糊里糊涂的搞了很多比如3D游戏, 游戏的人工智能程序等内容, 总体上来说, 没有太多虚度时间

任务调度SchedulerX系列之QuartZ时间表达式语法与样例说明

目录 Quartz时间表达式入门... 1 Quartz时间表达式格式详解... 2 Quartz表达式中的特殊字符... 3 * 星号... 3 ? 问号... 3 , 逗号... 4 / 斜杠... 4 - 中划线... 5 L 字母... 5 W 字母... 6 # 井号... 6 QuartZ时间表达式样例... 7 分钟的 Cron 表达式... 7 天的 Cron 表达式... 7 周和月的 Cron 表达式... 7 Quartz时间表达式入门时间格式 <s m

使用lucene 3.0.0索引和检索中文文件

一. 我本来的程序其实我本来的程序挺简单, 完全修改自Demo里面的SearchFiles和IndexFiles. 唯一不同的是引用了SmartCN的分词器. 我把修改那一点的代码贴出来. IndexhChinese.java: Date start = new Date(); try { IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR), new SmartChineseAnalyzer(Version.LUCE

学习不会用-如何加载Lucene.net3.0.0?

问题描述如何加载Lucene.net3.0.0? 不会用,刚刚开始学Lucene.net,求教,哪位大神教教我,谢谢大神了

Apache Lucene 6.6.0 发布，Java 搜索引擎

Apache Lucene 6.6.0 发布了,值得关注的更新是: 添加一个并发的 SortedSet facets 实现还包括许多 Bug 修复.改进.优化和其他的更新,详情点此参阅. 下载地址 Lucene 是 Apache 软件基金会的一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎.Lucene 的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎.