Luke:Lucene索引查看工具

Luke介绍

Luke是一个方便的索引查看和诊断工具,可以访问Lucene构建的索引文件,显示和修改某些索引内容。能提供:

  • 通过document编号或term浏览索引
  • 查看document内容,可复制到剪贴板
  • 对频率最高的term的索引字段提供排名后的浏览
  • 执行搜索语句并浏览搜索结果
  • 分析搜索结果
  • 从索引中选择性删除文件
  • 重建原始文档字段,对其进行编辑,然后重新插入的索引
  • 优化索引
  • 可以打开hadoop文件系统内的索引文件

Luke使用

google code里下载lukeall的jar包,直接java -jar lukeall-version.jar 即可启动。

启动后选择你的索引文件路径,选择read-only打开:

overview界面是用来进行索引的一般性查看和操作的,比如索引目录,域信息,版本,term信息,Rank排名等信息。注意,索引文件里Analyze却不Store的字段信息还是不可见的,也就是只能看STORE了的内容。


documents界面是用来进行文档的操作和查看的,能根据文档编号和词进行查找,其实这个就是搜索功能

search界面是可以进行索引的搜索测试,可以编写lucene搜索语句,看到语句解析后的query树,还可以选择进行搜索的分词器、默认字段和重复搜索次数,然后下面的listview中就会列出一个搜索的的文档的所有保存的(store)字段的值,可以看到查询花费的时间

file界面,故名思义,这个就是用来查看每个索引相关文件的一些属性的界面,具体的话,可以通过这个界面分析下索引文件的多少,是否需要优化或者合并等等

最后一个plugins界面,就是可以看到luke提供的各种插件。比较有用的还是分词工具,提供一个分词的类,然后下面文本框输入一段文本,然后就可以让这个工具帮你分词,你可以看到详细的分词信息,对自定义分词器的调试或者测试。还有一个hadoop插件,支持从hadoop节点中获取节点中文件的相关信息,对分布式搜索引擎搭建有用,算是支持多平台的lucene索引文件块的查看

个人理解

其实Lucene构建的索引,无论从结构上说还是功能上说,和一个DBMS数据库很相似,你可以认为Luke做的事情就是包装了Lucene的IndexReader和IndexSearcher之后,变成一个界面化的索引展示和管理工具。你完全可以自己写程序在cmd里查看,但是没有Luke提供的展示那么直观和多样。

Luke只提供带桌面界面的操作系统,就是说你的linux服务器,如果是命令行界面的话,是使用不了Luke来查看的,这是不是一个可以想办法改进的地方?

luke源码结构简单,通过使用luke并阅读源码,对这个工具一定可以有更全面的认识。

时间: 2024-11-04 22:53:07

Luke:Lucene索引查看工具的相关文章

Luke lucene索引工具箱

项目地址,before 4.0 :http://www.getopt.org/luke/或https://code.google.com/archive/p/luke/ 项目地址,newer:    https://github.com/tarzanek/luke  .没有二进制发行版,需要自己用ant编译. 1.简介 Luke is a handy development and diagnostic tool, which accesses already existing Lucene i

百度索引量工具升级 站长们的福音来了吗

8月28日百度站长平台发布公告:最近两天很多网站收录数量浮动较大,其原因是site命令出错,其实site命令一直都只是收录的估算值,这点大家都很清楚,看收录数据最好还是查看百度索引量.这个比site命令要准确,8月31日百度站长平台发布公告,百度索引量工具升级,增加了新的功能:定制查询.公告称百度还会继续升级索引量工具,对于站长们来说,这算是一大喜讯,意味着百度要着手解决网站收录的问题了,要想更准确的搞清楚整站的收录量,那只能一个个复制URL,然后使用百度去一个个检查,或者开发个工具去查询,也有

百度站长平台 索引量工具升级版内测公告

站长网(www.admin5.com)8月30 日消息,今天百度站长平台发布索引量工具升级版内测公告,具体内容如下: 各位网站管理员, 很高兴的通知大家,百度站长工具-索引量工具升级版今日开启内测.百度站长平台索引量工具推出以来就受到了广大站长的欢迎,根据我们近期的调研及站长们的建议,索引量工具新增定制查询功能,并同步开启内测,欢迎广大站长参与内测,提出更多宝贵的建议. 本次升级工具亮点: 1.新增定制查询功能:可定制某一类特征网页的索引量数据及趋势,目前支持简单的通配符匹配,模糊匹配出所有相关

【工具】系统性能查看工具 dstat

今天学习到一款系统性能查看工具 dstat  获取方式: 1 yum install -y dstat 2 wget http://packages.sw.be/dstat/dstat-0.7.2-1.el5.rfx.noarch.rpm   rpm -ivh  dstat-0.7.2-1.el5.rfx.noarch.rpm Dstat的使用: 安装完成后,执行 dstat 命令,默认情况它会收集-cpu-.-disk-.-net-.-paging-.-system-的数据,一秒钟收集一次. 

MySQL和Lucene索引对比分析

MySQL和Lucene都可以对数据构建索引并通过索引查询数据,一个是关系型数据库,一个是构建搜索引擎(Solr.ElasticSearch)的核心类库.两者的索引(index)有什么区别呢?以前写过一篇<Solr与MySQL查询性能对比>,只是简单的对比了下查询性能,对于内部原理却没有解释,本文简单分析下两者的索引区别. MySQL索引实现 在MySQL中,索引属于存储引擎级别的概念,不同存储引擎对索引的实现方式是不同的,本文主要讨论MyISAM和InnoDB两个存储引擎的索引实现方式. M

漏洞-关于星号密码查看工具的几个问题

问题描述 关于星号密码查看工具的几个问题 接触到一款叫bullet的查看星号密码的工具,可以记录下在密码输入框里输入过的密码信息并转换为明文查看, 找了几个需要登陆的网页和软件做了一些实验,有些成功了,捕捉到而且记录了星号密码是什么,有些想qq这种可以捕捉到有输入密码的行为,但是看不出密码是什么,有些根本捕捉不到. 所以非常想问一问为什么会有不同,不同之处在哪里.这种密码框输入后的传输的机制是什么.这种星号密码查看器又是根据什么漏洞来实现这种功能的呢? 解决方案 密码框是一个Windows的一个

本地密码查看工具LaZagne中的自定义脚本开发

本文讲的是本地密码查看工具LaZagne中的自定义脚本开发,LaZagne是一款用于检索大量存储在本地计算机密码的开源应用程序. 因为每个软件储存密码的方式不尽相同(明文.API.定制算法.数据库等),所以该工具使用多种方法获取软件密码,目前支持的软件如下图 该工具通过python开发,易读.易维护,所以本文就尝试对其扩展,编写python脚本实现对360极速浏览器的密码导出,并且介绍脚本开发过程的细节. 0x01 简介 本文将要介绍以下内容: · 解决LaZagne中的bug · 开发脚本导出

c++有没有内存分配查看工具啊

问题描述 c++有没有内存分配查看工具啊 有没有一个工具可以查看c++对象内存分配情况呢?至少可以得到有哪些对象,分别是分配在堆上还是栈上等信息? 解决方案 根本不用看,我说了,这是固定的.局部变量在堆栈上,动态分配的在堆上. 解决方案二: 有内存泄露检测工具...... 解决方案三: 主要是从语法上来理解,直接查看的工具没有,一般也就是nm readelf等分析.

SQLSERVER图片查看工具SQL Image Viewer5.5.0.156

原文:SQLSERVER图片查看工具SQL Image Viewer5.5.0.156 SQLSERVER图片查看工具SQL Image Viewer5.5.0.156 在2013年某一次北京SQL PASS会议中,格瑞趋势的王中涛大侠就介绍了一款数据库图片查看工具 不知道大家有没有印象 不过这篇文章介绍的插件不是集成到SSMS当中的 这个工具的下载地址:http://www.kuaipan.cn/file/id_4401224786927352.htm 大家也可以到官网去下载:http://w