一步一步学solr：什么是solr？

简介

Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果；

特点

Solr是一个独立的企业搜索服务器REST-like API。你把文件(称为“索引”) 通过XML、JSON、CSV通过HTTP或二进制。你查询它通过HTTP GET和接收XML、JSON、CSV或二进制的结果。

- 高级全文搜索功能
- 优化了高容量的网络流量
- 基于标准的开放接口——XML、JSON和HTTP
- 综合HTML管理接口
- 服务器统计数据暴露在JMX监控
- 线性可伸缩、自动索引复制,自动故障转移和恢复
- 接近实时索引
- 灵活和适应性强的XML配置
- 可扩展的插件体系结构

Solr使用Lucene TM 搜索库和扩展了它!

- 真正的数据模式,数值类型、动态字段,独特的钥匙
- 强大的扩展Lucene查询语言
- 面向方面的搜索和过滤
- 地理空间搜索支持多个分文档和geo多边形
- 先进、可配置的文本分析
- 高度可配置和用户可扩展的缓存
- 性能优化
- 外部配置通过XML
- 一个基于AJAX的管理界面
- 可监控日志
- 快接近实时增量索引和索引复制
- 高度可伸缩的分布式搜索分散指数跨多个主机
- JSON、XML、CSV / delimited-text和二进制格式更新
- 简单的方法将数据从数据库和XML文件从本地磁盘和HTTP消息
- 丰富的文档解析和索引(PDF、Word、HTML等)使用Apache Tika
- Apache UIMA集成配置元数据提取
- 多个搜索指数

详细的功能

模式

- 定义文档的字段类型和字段
- 可以更智能的处理
- 声明式Lucene分析仪规范
- 动态字段支持动态添加新字段
- CopyField功能允许索引一个领域的多个方面,或将多个字段组合成一个可搜索的字段
- 显式类型不需要猜测类型的字段
- 外部文件的配置stopword列表、同义词列表和受保护的单词列表
- 许多额外的文本分析组件,包括分词、正则表达式和近似读音过滤器
- 可插入的每个领域相似模型

查询

- HTTP接口具有可配置响应格式(XML / XSLT、JSON、Python、Ruby PHP,速度、CSV、二进制)
- 通过任意数量的字段进行排序,并通过复杂的数值字段功能
- 高级DisMax查询解析器高相关性用户输入的查询的结果
- 强调上下文片段
- 分面搜索基于独特的字段值,显式查询,日期范围,数值范围或枢轴
- 同时选中分类通过标记和选择性地排除过滤器
- 拼写建议用户查询
- 更像这个建议给定文档
- 函数查询——影响的分数通过用户指定复杂的功能数值字段或查询相关性分数。
- 范围过滤函数查询结果
- 日期数学——相对于“现在”指定日期的查询和更新
- 使用Carrot2动态搜索结果聚类
- 数值字段统计如最小,最大,平均值,标准偏差
- 结合查询源自不同的语法
- 完成用户查询之功能
- 允许配置的结果为一个查询,覆盖正常的得分和排序
- 简单的两个文档类型之间的连接能力
- 性能优化

核心

- 没有重新启动动态创建和删除文档集合
- 可插拔的查询处理程序和可扩展的XML数据格式
- 可插拔的用户查询的功能函数
- 可定制的基于组件的请求处理程序与分布式搜索的支持
- 文档独特性执行基于独特的关键字段
- 文档复制检测,包括模糊附近重复
- 自定义索引处理链,使索引之前文档操作
- 用户可配置的命令触发指数变化
- 与排序字段丢失控制文档的能力将被放置
- “路加福音”语料库信息请求处理程序

缓存

- 可配置查询结果、过滤和文档缓存实例
- 可插拔的缓存实现,包括锁自由、高并发性实现
- 缓存变暖背景
- 当一个新搜索器打开,可配置搜索与运行避免为了温暖起来缓慢的第一个打击。在变暖,当前搜索器处理请求。
- Autowarming背景
- 最近访问的缓存条目新搜索器搜索器,使高缓存命中利率在索引/搜索者的变化。
- 快速/小过滤器实现
- 用户级缓存autowarming支持

SolrCloud

- 集中基于Apache动物园管理员配置
- 自动化的分布式索引/分片-文档发送到任何节点,它将转发到正确的切分
- 接近实时索引与直接基于推的复制(也支持基于复制慢)
- 事务日志可以确保不丢失更新即使还没有索引的文档到磁盘
- 自动查询故障转移,指数领袖选举和恢复失败的情况下
- 没有单点故障

管理界面

- 综合统计数据缓存利用率、更新和查询
- 互动模式浏览器,包括索引统计信息
- 复制监控
- SolrCloud仪表盘图形集群节点状态
- 完整的日志记录控制
- 文本分析调试器,显示每个阶段在一个分析器的结果
- 网页查询接口w /调试输出
- 解析查询输出
- Lucene文档得分详细解释()
- 解释分数以外的文件请求的范围来调试为什么给定文档没有排名更高。

总结

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。文档通过Http利用XML 加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现。它的主要特性包括：高效、灵活的缓存功能，垂直搜索功能，高亮显示搜索结果，通过索引复制来提高可用性，提供一套强大Data Schema来定义字段，类型和设置文本分析，提供基于Web的管理界面等。

下面将写solr站内搜索的实战，基于solr4.9+tomcat7，欢迎更多好朋友一起讨论。

时间： 2024-10-30 08:39:15

一步一步学solr：什么是solr？的相关文章

一步一步学solr：tomcat7+solr4.9环境搭建

solr下载地址:http://www.apache.org/dyn/closer.cgi/lucene/solr/4.9.0 tomcat下载地址:http://tomcat.apache.org/download-70.cgi 首先将下载好的2个包解压,我在E:/test文件夹一个空的tomcat 找到你解压好的solr4.9.0目录, 将E:\solr-4.9.0\example\webapps的solr.war拷贝到E:\test\tomcat7\webapps下然后

一步一步学EJB3.0(三):悟透会话Bean(下)

三.无状态会话Bean实例在上一篇文章里,其实我们已经应用到了无状态会话Bean,那好,下面我们详细的来分析下上一篇文章里给出的示例程序. 没有阅读过的朋友请点击这里阅读:<<一步一步学EJB 3.0(二):初探企业 EJB模块开发>> . 首先我们来看看接口的定义: 1 /** 2 * 远程接口 3 * @author Beniao 4 */ 5 @Remote 6 public interface HelloRemote { 7 void sayHello(String s

一步一步学NUnit(2)

前一章我们简单介绍了NUnit的入门示例<一步一步学NUnit(1)>,让大家对NUnit有个简单的认识. NUnit的使用是非常简单的,但是它在项目中使用时,有许多最佳实践.这章我们把上一章没有讲到的 NUnit的一些配置和特性介绍一下. 要想熟练地使用NUnit还是要在实践中使用和体会,单纯地学习知识点是没有用的. 好,不再废话了.继续上一章的内容. 在Visual Studio 2008 中打开上一章的示例,Calculator类有4个最简单的方法:加.减.乘.除. Calculator

一步一步学ROP之linux_x86篇

一步一步学ROP之linux_x86篇作者:蒸米@阿里聚安全一.序 ROP的全称为Return-oriented programming(返回导向编程),这是一种高级的内存攻击技术可以用来绕过现代操作系统的各种通用防御(比如内存不可执行和代码签名等).虽然现在大家都在用64位的操作系统,但是想要扎实的学好ROP还是得从基础的x86系统开始,但看官请不要着急,在随后的教程中我们还会带来linux_x64以及android (arm)方面的ROP利用方法,欢迎大家继续学习. 小编备注:文中涉及代

一步一步学ROP之linux_x64篇

一步一步学ROP之linux_x64篇一.序 **ROP的全称为Return-oriented programming(返回导向编程),这是一种高级的内存攻击技术可以用来绕过现代操作系统的各种通用防御(比如内存不可执行和代码签名等).上次我们主要讨论了linux_x86的ROP攻击:<一步一步学ROP之linux_x86篇>,在这次的教程中我们会带来上一篇的补充以及linux_x64方面的ROP利用方法,欢迎大家继续学习. 另外文中涉及代码可在我的github下载:https://githu

一步一步学Silverlight ：使用样式封装控件观感

概述 Silverlight 2 Beta 1版本发布了,无论从Runtime还是Tools都给我们带来了很多的惊喜,如支持框架语言Visual Basic, Visual C#, IronRuby, Ironpython,对JSON.Web Service.WCF以及Sockets的支持等一系列新的特性.<一步一步学Silverlight 2系列>文章带您快速进入Silverlight 2开发. 本文为系列文章第八篇,主要介绍在Silverlight中使用Style元素封装控件观感 Silv

一步一步学Silverlight ：在Silverlight中如何用JavaScript调用.NET代码

概述 Silverlight 2 Beta 1版本发布了,无论从Runtime还是Tools都给我们带来了很多的惊喜,如支持框架语言Visual Basic, Visual C#, IronRuby, Ironpython,对JSON.Web Service.WCF以及Sockets的支持等一系列新的特性.<一步一步学Silverlight 2系列>文章将从Silverlight 2基础知识.数据与通信.自定义控件.动画.图形图像等几个方面带您快速进入Silverlight 2开发. Silv

一步一步学Silverlight ：基本控件

概述 Silverlight 2 Beta 1版本发布了,无论从Runtime还是Tools都给我们带来了很多的惊喜,如支持框架语言Visual Basic, Visual C#, IronRuby, Ironpython,对JSON.Web Service.WCF以及Sockets的支持等一系列新的特性.<一步一步学Silverlight 2系列>文章带您快速进入Silverlight 2开发. 本文为系列文章第二篇学习几个基本的控件. 在Silverlight 2中,提供了大量的控件,包括

一步一步学Silverlight ：数据与通信之WebClient

概述 Silverlight 2 Beta 1版本发布了,无论从Runtime还是Tools都给我们带来了很多的惊喜,如支持框架语言Visual Basic, Visual C#, IronRuby, Ironpython,对JSON.Web Service.WCF以及Sockets的支持等一系列新的特性.<一步一步学Silverlight 2系列>文章带您快速进入Silverlight 2开发. 本文将介绍如何在Silverlight 2中使用Web Client进行通信. 简单示例编写一

一步一步学Silverlight ：使用控件模板

概述 Silverlight 2 Beta 1版本发布了,无论从Runtime还是Tools都给我们带来了很多的惊喜,如支持框架语言Visual Basic, Visual C#, IronRuby, Ironpython,对JSON.Web Service.WCF以及Sockets的支持等一系列新的特性.<一步一步学Silverlight 2系列>文章带您快速进入Silverlight 2开发. 本文为系列文章第九篇,主要介绍如何使用控件模板定制控件的观感.Silverlight提供了极其强

猜你喜欢

Godaddy正式支持支付宝

今天下午消息,美国域名注册公司GoDaddy目前已经支付中国用户通过支付宝购买GoDaddy域名和主机,这给中国大陆用户带来了很大的便利,此前中国用户只能使用信用卡或者PayPal在GoDaddy注册 ...

菜鸟学exchange（一） exchange邮件系统的简单安装和部署

实验背景: 西安凌云高科技是一家拥有300名员工的高新技术企业,总部在位于西安.在上海和北京分别有分公司.西安凌云高科技有限公司的邮件系统对公司的成功非常重要,销售工资依赖于消费者的快速和可靠的联系, ...

.net中如何得到实际运行时的asm代码

在对.net程序进行调试或者性能测试时,常常需要查看生成的IL代码,但仅仅有IL代码还是不够的,有时我们还希望查看CLR生成的最终asm代码.在VS里,可以非常方便的查看最终的asm代码:当程序执行到 ...

NetMeeting是什么？

Netmeeting是Windows系统自带的网上聊天软件,意为"网上会面". Netmeeting除了能够发送文字信息聊天之外,还可以配置麦克风.摄像头等仪器,进行语音.视频聊天 ...

如何使用xp系统中的自动维护功能教程

大家都应该知道我们的XP系统有一个自动维护的功能,这个功能主要是在我们系统比较空的时候对我们的电脑进行更新扫描安全,更新电脑中的软件进行磁盘清理等很多的维护步骤,大家可能很少有人启动这个功能,其实 ...

虚拟设备-linux下多个主机如何同时访问同一个不支持多连的蓝牙设备

问题描述 linux下多个主机如何同时访问同一个不支持多连的蓝牙设备现在我有个相对昂贵的蓝牙验证仪器用于验证特定物品真实性,主机上装有验证软件,该软件识别仪器然后配合完成验证.现在多个主机安装了软件 ...

codeforces Round #320 (Div. 2) C. A Problem about Polyline(数学) D. "Or" Game(暴力，数学)

解题思路:就是求数 n 对应的二进制数中有多少个 1 解题思路:对(strength, i, j)按照strength进行递减排序,从左到右进行遍历,用b[N]表示i和j有关系! 如果发现b[i]或 ...

调用接口的时候出错了

问题描述调用接口的时候出错了上面是调用接口出错,这是什么意思?求助aa 解决方案 Struts2中Action中动态调用,为什么出错了??? 解决方案二: 检查你的地址和参数,服务器连接上了,返回 ...

那些值得期待的智能商品们

科技一定会改变生活,而在20年后人类的科技将会高度个性化,现在人们的生活质量不断地提升,从我们坐的椅子,到我们手中的产品,我们已经感到越来的越舒服;而我们只会收到来自亲朋好友的最有用的信息;也许在未来 ...

ios-iOS 里uitableview的问题

问题描述 iOS 里uitableview的问题在UITableView中,改变cell的alpha 值,在向下拉重用时在visiableCells中alpha 值没有改变这是cellForRow ...

ios UI开发相关转载链接汇总

ui指路明灯!!!苹果官方人机界面指南: https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual ...

怎样在中国消灭IE6浏览器

IE6在互联网存在已经快九年,它是微软为视窗操作系统Windows开发的网页浏览器Internet Explorer的第六个版本.它从2001年8月27日被发布,几乎走过了互联网从寒冬到复兴的近十年时 ...

Norton Ghost批处理命令用法详细介绍第1/2页_DOS/BAT

.Ghost批处理文件的基本格式 Ghost-clone,mode={copy│load│dump},src={drive│file│drive:partition},dst={dri-ve│file ...

《TCP/IP路由技术（第一卷）（第二版）》一1.3　IPv4 地址

1.3 IPv4 地址 IPv4地址长度为32位.像所有其他网络层地址一样,IPv4地址也包括网络号和主机号两部分.网络号部分惟一地标识了一条物理链路或逻辑链路,对于与该链路相连的所有设备来说网络号 ...

java多线程编程的常见陷阱

1.在构造函数中启动线程我在很多代码中都看到这样的问题,在构造函数中启动一个线程,类似这样: public class A{ public A(){ this.x=1; ...

vs2008 调试类型转换-Vs2010中的反汇编有什么作用

问题描述 Vs2010中的反汇编有什么作用 VS2010中的反汇编有什么作用?? 在调试中出现无可用源时显示反汇编有什么作用,在断点调试后出现无可用源怎么回事解决方案理论上在没有源代码的时候可以用 ...

曙光服务器发力互联网行业 2016年第一季度中标金额达数亿元

小到餐饮娱乐,大到国防军工,互联网融入中国经济产业的每一个角落,渗透到经济社会的各个领域,成为经济社会发展的重要引擎和基础平台.通过与互联网的紧密结合,更多产业加速转型升级,焕发活力,缔造出千亿元市场 ...

东方通中间件成功中标中国移动

近日,在中国移动2009年新建系统数据库.中间件和备份软件集中采购项目中,东方通中间件应用服务器软件TongWeb成功入围应用服务器集中采购名单,且获得了全面预算管理系统项目订单,将在全国31个省区市 ...

文思董事长内部邮件：与海辉软件合并为对抗国外同行

8月10日,http://www.aliyun.com/zixun/aggregation/39168.html">文思创新和海辉软件今日宣布将以各占50%股份的形式组织一家新的公司文 ...

30万元威客抽奖活动火热进行中

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅记者近日从任务中国(http:// ...

脚本与批处理合二为一_其它

批处理是我们管理计算机和进行一些日常工作的好帮手,随着Windows的升级,批处理能做的事情越来越多.但是还是有很多事情我们无法用批处理来完成.好在后来微软在windows中加入了Windows Sc ...

Java基础知识之Java语言概述_java

Java语言是SUN(Stanford University Network,斯坦福大学网络公司)公司1995年推出的一门高级编程语言,起初主要应用在小型消费电子产品上,后来随着互联网的兴起,Java ...

Win2008中安装的MSSQL2005后无法访问的解决方法_mssql2005

很久笔者没有来这里写东西了,因为真的很忙. 最近笔者一直在使用Win2008系统,不过发现一个很奇怪的问题,那就是在该系统上安装了SQL2005后,再在其他计算机访问该主机显示不能访问. 其他主机上也 ...

天猫家装年中促单日引爆消费者热情

6月25日消息天猫家装推"免费送货上门并安装"服务以来,消费者热情持续高涨.天猫619家装年中促单日,订单笔数就超过了9.6万笔,交易额超10亿元,其中购买大件家装的用户100% ...

rxandroid-RxAndroid切换线程问题

问题描述 RxAndroid切换线程问题准备写一些测试数据的,但是卡在了RxJava切换线程这里,不知道方式是不是写错了在UI线程调用图中的写法会引发ANR. 望指点.谢谢,下面是图解决方案 h ...

android-如何在一个自定义的布局中显示图像？

问题描述如何在一个自定义的布局中显示图像? 我可以使用下面的代码在一个系统布局中显示一个图像,但是我希望在我自定义的布局中显示一个图像,如何实现? public void onClick(View ...

求问-windows程序设计之对话框

问题描述 windows程序设计之对话框在windows程序设计十一章ABOUT2中.要在对话框上绘图,实现过程是:程序在处理WM-COMMAND消息时调用painttheblock函数来绘图,pa ...

WP7旗舰HTC HD7港行下月开卖价格昂贵

在微软隆重发布的10款 Windows Mobile7系统手机中,来自HTC旗下的HTC HD7无疑将是一款旗舰级新机,尤其是作为经典机型HTC HD2升级版本,这款功能强大的智能手机更是受到人们更多 ...

上传你的大脑：会有那么一天吗？

沿着进化之路,一些原始人类也许是最早具有认知能力的动物,他们能理解死亡总有一天会到来.作为人类我们能认识并且要面对这一点(死亡总会到来).很多人从宗教那儿得到慰藉,因为宗教承诺离开这个世界生命还会在另 ...

C#如何判断excel隐藏行和列

问题描述就是说给你n张excel表,里面有一些隐藏行和列,隐藏行和列的数据是不需要提取的.现在我想在提取excel数据的时候,判断哪一行哪一列是隐藏的,如果是隐藏的行和列就跳过,而用oledb默认是 ...

热搜