大明想跟你聊聊Solr6.x

来来来,坐下来,我们一起来聊聊Solr6.6。其实我关注Solr也有很长时间了,已经有小几年了吧。接下来, 我们来具体的聊一聊Solr几个变化或者变化趋势。

1. Hi Solr

其实想聊Solr,不提及ElasticSearch还是挺难的。提到ElasticSearch免不了要谈谈它的爸爸Elastic.CO。
如你所知,Solr出生很早,比ElasticSearch还要早一些。在Solr5.0之前, Solr一直很Solr,跟Lucene一脉相承。Solr原本就是Lucene一个子项目,连版本都是同步发布,版本也是一致的。

Lucene出生于2003年, Solr大致在2007年,ElasticSearch应该是2010年。

ElasticSearch可以说后起之秀了,主要是Elastic.CO这个大后台,以ElasticSearch为根基,定位于日志流处理,搞出一全套级解决方案。那就是大名顶顶的ELK三件。

后续Solr走出差不多的路,后面不仅是PMC,还有LucidWorks.com。当然这里关系也不太清楚,LucidWorks号称是Expert for Solr Enterprise Search,是一家卖Solr技术服务的公司。多说一句,Solr 5.x开始Solr的Leader从Make换成Yonik Seeley了,然而Yonik Seeley就是LucidWorks的co-founder。

solr 3.x/4.x Solr Leader都是Make,在这个阶段Solr性能有极大提升,或者加强大数据量级下Solr可用性。主要是这两方面下功夫,例如排倒表诸如迭代,BlockTree,再到FTS;又如TireField来提升区间搜索效率;又如DocValues,优化排序,Facet/Group等等

Yonik给我最大印象两块,一个SQL on Solr,另一块是JSON Request API。当然他工作也有很多,只是我脑容量的问题。
另外,Solr6.5的SQL已经重新实现,换成Calcite,貌似由Calcite的作者带来的。

LucidWorks跟着Elastic.CO一样,也整出一整企业级搜索方案(注意搜索方案,不是日志解决方案)。也就是LucidWorks并没有非常强调日志这个关键字,而是聚焦在搜索上,

说这么多,还是介绍LucidWorks这个神级产品,它叫Fusion。后面我发现好多好多大数据产品叫这个名,比如华为的云平台就叫Fusion。

Fusion含类似ELK的三套件,E对Solr,作为搜索、分析引擎;L对Fusion Pipeline/Connectors,当然也可以选用Flume来收集数据。由于Fusion并不是针对日志来说,所以它并没有收集的概念,而是更加注重数据源DataSource;K对Banana,作为分析展示,Dashborad(仪表盘)。

实际上对Banana而言,相比Kibana的话,我只想呵呵。这可能也是因为Solr聚合函数上缺陷吧,另一方面Banana的爸爸不如是Kibana上心。

2. Solr,你变了!

如果你从Solr4.x开始的话,我猜你一定能感觉得到Solr这两年来的巨大变化,或者这个变化趋势。Solr5.x开始出现schemaless这就很ElasticSearch了;到了Solr6.5又引入了API v2,虽然我还没怎么用API v2, 但明显感觉到它非常ElasticSearch;另外是JSON Request API会更贴近ElasticSearch Query DSL,老实说Solr Function Query真是醉人,反正小弟至今不会用,愧疚愧疚愧疚; 最后是SolrJ API方面,也引入新编程风格Fluent Style了。当然这个才刚刚开始,我估计接下来的版本一定会继续往这边靠。

除此之外,Solr也提供了很多聚合函数。通过JSON Request API提供出聚合函数越来越多,也越好用。总比写Facet.Stats好用很多很多,也比写tvh好。哈哈哈,这也越来越ElasticSearch的一方面。

  • 下面都是我自己的YY
    在不久的将来,Solr一定会引入更多网络传输协议来代替Http,来降低Http在集群内网络传输的消耗。如你所知,一个简单搜索过程群集内至少需要进两次或两次以上网络交互。将来挺有可能引用像Netty这样的网络传输框架来代替HttpClient,至少会升级Http1.1。
    而且这个事,极可能发生在Solr7.x。

3. Solr:Sorry! 我是搜索服务器

Solr还是很搜索的,这一定是在过去且在将来,与ElasticSearch保持绝对差异性的关键所在。

其实我对ElasticSearch了解并不多,很多人把ElasticSearch用于搜索服务器,但我感觉并远没有Solr好用。包括分词器的配置,搜索结果再排序,搜索结果转换等等,个人感觉ElasticSearch都不如Solr。
最最简单的,就是搜索调试,打开一个Chrome就能直接调试起来,非常方便。

也是因为如此,Solr搜索输出格式也非常复杂和零乱,这也使得Solr不被用于分析吧。因此Solr又搞出SolrResponseWriter,和一堆handler,Component。

4. Solr 6.x

solr 6.6更新之际,不能不谈谈Solr6.6的一些更新。在我看来,Solr6.6本身没什么特别的东西,但是它给出一些信号,或者说让我们又有一些期待吧。

前面几个更新都是属于API v2范围,然后更新几个都是Streaming Expression。这两个绝对Solr6.x关键特性,非常有意义。当然Streaming Expression跟Parallel SQL是一脉相承的,都能归于Sql的范畴。

streaming apiParallel SQL 这是Solr 6.0给出来新功能,也是Solr6.x非常重要功能。虽然这个功能出来已经有一段时间了,但我实际上我还没有开始深入去看它呢。之所以还没深入来了解它,只是因为她是暂时还只是一个非常的概念,却不实用,或者还存在一些Bug。用了几个小版本prestodb的SQL Parser之后,又切到Calcite,让我看到Solr Sql的希望了。其实对我来说,我并不是很非常关注SQL on Solr,但也说明她在往Analysis NoSQL Database发展。

为什么我一直调强SQL on Solr非常值期待呢,老实说,Solr6.5之前我都说Sql On Solr没什么意义。因为之前它是通SQLParser来解释SQL转成Streaming expression来执行,Solr的Streaming API也非常值得期待。只是不过这方式我并不看好,直到Solr6.5,Calcite的Committer带来Calcite,代替PrestoDB的SqlParser。之所以说看好SQL on Solr,不如说对Calcite非常看好。

又引入各种常用MetricsReporter,方便运维...

时间: 2024-10-28 22:01:10

大明想跟你聊聊Solr6.x的相关文章

想考研的成考毕业生

[留言] 老师您好,想和您聊聊我的情况.可能有点长~我真的很需要一些指点~ 因为种种原因,我根本就没上过大学,四年时光就那么荒废了,现在手里只有一张成考本科的学历.还是后来补的.好在我从小学开始就已经接触过编程了,还算有点代码调试的经验.高中参加计算机奥赛,获过省二等奖.对算法和数据结构应该算是有个初步的了解. 现在在一家国企做对日外包.已经有2年多的工作经验了.但对未来感到有些绝望.学历太差固然限制了我的发展,但更大的问题是能力本身.工作中的问题我都能应付的不错,简历上也能写出长长一串技能列表

网站优化:我带大家从深层次来认识下搜索引擎

最近我一直在思考我做SEO这几年来的林林总总,感觉我应该表达些什么.可是每次提笔的时候,又不知道从哪里说起了.今天呢,我不准备给大聊SEO操作方面的事情.想跟大家聊聊SEO更高方面的事情. 一.搜索引擎是干什么的? 这不废话嘛,搜索引擎肯定是搜索信息的.那么,为什么会出现搜索引擎呢?这个问题我想大家都会知道,因为在信息的越来越多.在人们不知道去哪里寻找信息的情况下,搜索引擎诞生了.它的作用就是收集信息,并且返回给用户的这么一个过程.在这个过程当中,很明显它对自身的要求就是.一定要把最有正确的,最

众包测试模式:怎么满足用户需求?

文章描述:小米手机的非典型众包模式. 我从 8 月底拿到了小米手机工程版,持续用过两个月之后换到了零售版.在观察了一些改动细节之后,今天想跟大家聊聊"众包测试"模式. 什么是众包测试? 众包(CrowdSourcing)的含义是一种分布式的解决方案和生产模式,见于 2006 年 6 月<连线>(wired)的一篇<众包的崛起>:企业利用互联网将工作分配出去.发现创意或解决技术问题.企业可以利用志愿者大军的创意和能力--这些志愿者具备完成任务的技能,愿意利用业余时

SEOmoz创始人Randfish访谈

Rand Fishkin(Randfish) :搜索引擎专家,全球著名SEOMoz公司的创始人 倪英伟: 厦门时义浩维科技有限公司副总裁,网络营销专家 陈小华(石头):  知名搜索引擎营销专家 以下是本期访谈实录: Inway:感谢你接受我和石头的访问,首先想请你聊聊是什么样的动机促使你来中国参与搜索大会?此次的中国之行,你有哪些期望,关于搜索或者关于中国的? Rand:我去年就想来中国参与第一次的搜索大会了,但是时间一直调整不出来.今年,我知道我一定得来中国.毕竟,美国人从文化上来说往往都是比

最普通的7种软文类型

免费版(RC2)变更: #修复了默认安装,初次发布时进入死循环的问题#取消了title后的"Powered by CMSware"#确定保留"资源管理"菜单和程序模块#php5版本的where调用问题#动态发布的一处问题#调整了源码头部"meta"标识的添加方式 该测试版功能已经稳定,已经可用于正式网站建设.RC1升级到RC2直接覆盖程序包(config.php.模版目录不要覆盖) 免费版的附加条件:如果您觉得好,就把它推荐给您的朋友,让他也使用

你如何看待支付宝转账信息被搜索引擎抓取?

今天上微博看到一条很让人震惊的信息,不看还真不知道,一看吓了一大跳,支付宝转账信息既然被搜索引擎抓取了.有人会问到,这是怎么回事呢? 支付宝转账信息爆光 一开始笔者也不太相信,但看按照月光博客的方法在百度搜索" site:shenghuo.alipay.com ",看到的收录真让人吃惊,如下图吧.笔者特意找了一条收录的信息,由于这条收录的在首页,很容易就看到了,我也特意点击了百度快照看了一下,点击进去,里面的个人付款信息都能看到,按理说这是属于个人隐私信息,支付宝应该知道的,不能让蜘蛛

从关键词快照看搜索引擎的网页排序

想搜索一个公平公正的显示结果着实不易,我尝试了半天想为大家找到一个适合的关键词解读这次搜索的结果排序,但是失败了,尝试了多个短词,首页不是竞价推广占去太多位置,就是被百度自身的产品,新浪搜狐腾讯优酷酷六土豆豆瓣等等这些用户基础庞大的站点占领.索性就搜一个"网站优化".以下是展示结果:   就这个展示结果而言,我想和同行聊聊: 一. 关键词相关度(密度)对网页排名产生的影响 自从6月份百度为应对360的挑战,做了相当大的调整,清理了很大一部分站点,误伤了很多无辜的群众.这一点我们不能抱怨

360综合搜索的用户体验决定未来成败

话说十几年前周鸿祎凭流氓软件3721在IE上与百度拼的你死我活,殊不知十余年后360在8月16号低调推出的360综合搜索又将一场搜索引擎大战拉开了警报,顺利抢过了京东商城刘强东的风头,也将自己搜索的份额提到了10%左右,成功挤掉了谷歌和搜狗拥有了中国第二大搜索引擎市场,那么360综合搜索究竟能否成功呢? 互联网产品的金字塔结构中用户体验是处于最顶层的,也就是说谁抓住了用户,说就有了市场.而360综合搜索用的只是二级域名,竟然在没有任何宣传的情况下就轻松地当上了老二,作为网民上网的入口,浏览器的重

vb / C# 中报表套打的轻松实现

关键字: vb c# 报表 套打 微软的crystal report是非常不错的报表工具,今天我想和大家聊聊如果在vb 60 中使用crystal report 提供的环境在vb 中请轻松实现报表的套打功能.以水晶报表9为用例 craxddrt9.dll craxddrt9_res_chs.dll CRDesignerCtrl.DLL crdesignerctrl_res_chs.dll 以上四个dll在你安装好水晶9后会存在你系统环境中.你可以在vb项目中通过浏览文件直接引用这几个dll ,或