Managing Gigabytes for Java 4.0发布 Java搜索引擎是一个高度17813.html">可定制,高性能,全文的大型文档集合的Java搜索引擎。它提供state-of-the-art功能(如BM25/BM25F)和新的研究算法。
虽然MG4J(Managing Gigabytes for Java)不是一个像Lucene、Egothor和Xapian那样的信息检索库,但是我们相信正在读这本书的每一位软件工程师都应该知道它,因为它对构建Java信息检索库提供了低水平的支持。
MG4J是另一个搜索engine 。与Lucene 主要区别是,它提供了cluster 功能,具有更OO的设计方式。MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术。
Managing Gigabytes for Java 4.0这是一个并行发布DSI Utilities,Sux4J,MG4J,WebGraph等等fastutil版本的一部分。
支持在“big”版本超过2^31次方在数组中(模拟),列表中的元素,术语,文件,节点等。几个改进的语义,以及一些细微的,长期的错误修正。
官方网站:http://mg4j.dsi.unimi.it/
时间: 2024-10-24 17:38:30