java-长文本搜索要如何搜索比较好,有什么框架吗?

问题描述

长文本搜索要如何搜索比较好,有什么框架吗?

1.一个100m的txt文件,要进行搜索如key="你好";
2.要如何搜索?常见的功能呀,command+f,但是要自己实现就真的不怎么会呀
3.有没有相关的java的框架,开开源中国看了一下,都没有什么教程的,好无力

解决方案

java下用Lucene,全文索引。中文需要先分词。

时间: 2024-11-02 07:41:02

java-长文本搜索要如何搜索比较好,有什么框架吗?的相关文章

solr长文本搜索问题

多关键词搜索排序质量一直一个疼痛的问题,已经频繁遇到,目前还没来得及系统解决. 针对之前的解决经验,做一个小节,后面可能随着对排序质量的提高,会越来越突出. 请大家拍砖和丰富这方面的经验,提升解决需求的效率. 分析 当前默认都是phrasequery执行,对指定域先分词,然后按照短语去查询,当出现分词交叉后,结果就悲剧了. 当非自动生成phrasequery时候,指定域也会分词,然后按照AND  或者 OR 拼接起来去查,此时,短语的关联性丢失,挨在一起的可能没有排在前面,尽管有结果. 当不自动

基于图的深度优先搜索和广度优先搜索java实现

 为了解15puzzle问题,了解了一下深度优先搜索和广度优先搜索.先来讨论一下深度优先搜索(DFS),深度优先的目的就是优先搜索距离起始顶点最远的那些路径,而广度优先搜索则是先搜索距离起始顶点最近的那些路径.我想着深度优先搜索和回溯有什么区别呢?百度一下,说回溯是深搜的一种,区别在于回溯不保留搜索树.那么广度优先搜索(BFS)呢?它有哪些应用呢?答:最短路径,分酒问题,八数码问题等.言归正传,这里笔者用java简单实现了一下广搜和深搜.其中深搜是用图+栈实现的,广搜使用图+队列实现的,代码如下

在Web应用中图片和长文本的处理策略总结

web|策略  不难认识到,在web应用中图片/多媒体和长文体的处理策略,很大程度上决定中一个系统的性能和负载能力.    这几天在处理图片上载的同时,也在考虑着最合理的对图片和长文本的存储.多年前,我喜欢把图片和长文本都存进oracle中,目的是备份方便,只需要 exp就可以连图片一起备分起来,不用一个个地照顾目录.但是缺点也随着访问量上升而一点点显示出来:一来是大大加重了数据库服务器的负担:二来使用 BLOG/CLOG并不是SQL92支持的标准SQL,令开发持久性的对象变得复杂;其三,ora

java的文本区域

"文本区域"很像文字字段,只是它拥有更多的行以及一些引人注目的更多的功能.另外你能在给定位置对一个文本字段追加.插入或者修改文字.这看起来对文本字段有用的功能相当不错,所以设法发现它设计的特性会产生一些困惑.我们可以认为如果我们处处需要"文本区域"的功能,那么可以简单地使用一个线型文字区域在我们将另外使用文本字段的地方.在Java 1.0版中,当它们不是固定的时候我们也得到了一个文本区域的垂直和水平方向的滚动条.在Java 1.1版中,对高级构建器的修改允许我们选择

java的文本字段

"文本字段"是允许用户输入和编辑文字的一种线性区域.文本字段从文本组件那里继承了让我们选择文字.让我们像得到字符串一样得到选择的文字,得到或设置文字,设置文本字段是否可编辑以及连同我们从在线参考书中找到的相关方法.下面的例子将证明文本字段的其它功能:我们能注意到方法名是显而易见的:   //: TextField1.java // Using the text field control import java.awt.*; import java.applet.*; public c

java实现文本框和文本区的输入输出_java

在GUI中,常用文本框和文本区实现数据的输入和输出.如果采用文本区输入,通常另设一个数据输入完成按钮.当数据输入结束时,点击这个按钮.事件处理程序利用getText()方法从文本区中读取字符串信息.对于采用文本框作为输入的情况,最后输入的回车符可以激发输入完成事件,通常不用另设按钮.事件处理程序可以利用单词分析器分析出一个个数,再利用字符串转换数值方法,获得输入的数值.对于输出,程序先将数值转换成字符串,然后通过setText()方法将数据输出到文本框或文本区. [例 11-9]小应用程序设置一

谷歌语音搜索:对搜索的语音想象

作者:樊兰 11月27日是美国感恩节后的第一个星期五,通常都被称作"黑色星期五".这一天,纽约时代广场上的两块大型LED显示屏上,并没有像往常那样播放路透社和 纳斯达克的标识广告,而是如同接收到外太空信号一般,不停地滚动着手机号码和没有任何逻辑联系的词句.神奇的是,这些是人们拨打888-376-4336后对着话筒任意说出来的,经过号码背后的语音识别系统处理后会同步显示在屏幕上,每个词句下面还有似曾相识的搜索结果网页. 这其实是谷歌为旗下的语音搜索进行的一项别出心裁的推广活动. 千里之外

360搜索PK百度搜索 搜索市场谁主沉浮

奇虎360搜索在8月16日悄然上线后,似乎没有太大的动静.然而在神不知鬼不觉中,360搜索已经对整个搜索市场造成了冲击.8月21日消息,据金山网络CEO傅盛(微博)腾讯微博爆料,360搜索上线五天,在用户几乎无感知情况下迅速拿下国内接近10%搜索市场份额,超越搜狗,成为国内第二大搜索引擎.360搜索和百度搜索的搜索引擎市场霸主地位争夺战已经悄然来开.360搜索能否超越百度搜索呢?首先我们从他们各自的优缺点来进行一个对比: 360搜索 优势:周鸿祎本身就是国内做搜索的鼻祖,3721虽说失败了,但在

如何继续截取长文本显示省略号(多行)

记得第一篇博客写过单行文本溢出显示省略号,今天就来说说多行文本溢出怎么显示省略号吧 其实也是前些日子做移动端的页面接到这么个需求,本来以为这没法实现,同事跟我说-webkit-line-clamp属性可以,就去查了查,果然 Pc端基本不会有这种需求,因为这个方法兼容性太差,浏览器份额不是webkit占大头(特别是天朝),看前缀就知道只支持webkit内核,他属于webkit内部属性,和-webkit-text-size-adjust: none(这个Pc端已经不在支持,移动端还可以使用)类似,但