平均比Hive快24倍,Impala剑指Stinger

在YARN之前,Hadoop仅适用于离线处理场景。基于实时性的需求,各个机构纷纷研发了自己的流处理框架,这次我们说的是两SQL-on-Hadoop项目的对决,同时也是两家知名Hadoop解决方案提供商的比拼——Impala vs. Stinger。

Singer:Stinger最早出现在Hive 0.11中(HDP 1.3),共有3个阶段目标,其中第一和第二阶段已经交付。通过Hortonworks的介绍了解到,第一阶段交付的是35-45倍的所有类型分析提速,第二阶段交付的则是性能上额外5-10倍的提升。

Impala:Impala发布于2012年末,Google Dremel的开源实现,由知名Hadoop解决方案供应商Cloudera开发,是当下最为流行的流处理框架之一。Cloudera研发这头藏羚羊的初衷很明了——提高Hive SQL查询的速度,在1.0测试版发布时更声称比Hive快3-90倍,而在Impala正式版发布后,Cloudera更称其并发执行客户端处理速度甚至超越了单机的Hive。

Mesos、YARN等集群资源管理工具促成了Stinger与Impala的直接竞争,也就有了Cloudera这次基于TPC-DS的 基准测试。

Impala vs. Stinger

测试对比版本是Impala 1.1.1与Hive 0.12(集成了Stinger),Hive运行在ORCFile数据集之上,Impala则使用了Parquet存储相同的数据。为了让Hive得到最佳性能,Cloudera还将TPC-DS查询转换成SQL-92 join,并且手动优化了join顺序,指定了分区字段,Impala也做了同样的优化。

数据大小是3TB,使用了典型的5 Hadoop数据节点配置。查询也使用了多种类型,也包含了多种标准join及聚合,还使用了复杂的多级聚合和子查询。

测试得出的结果是Impala比Hive快6-69倍不等,类型包括以下几种:

写在最后

到这里,大家或许会有疑问,比Hive快十倍甚至是百倍的基准测试已随处看见,甚至是这些工具之间的对比,比如下面这两个:

HAWQ对比Hive及Impala(更多详情见 论文)

Shark对比Hive及Impala(更多详情请见博客)

那么这样的对比究竟还有什么意思?其实,这些都该归结于YARN推出后的机遇和挑战:机遇,新的资源管理器让不同类型的处理框架可以运行在同一个Hadoop集群上,在这个多金繁荣的生态圈里,每多占一点份额,其利益不言而喻;挑战,YARN的新特性让更多天然集成工具的性能又获提升,比如说Stinger,因此处于集成劣势上的他们不得不跳出来吆喝几句,也就出现了这个与Hive,其实是与Stinger的性能对比。由此可见,虽然在2.0版本后Hadoop生态圈变得更加繁华,但是其中的压力也是不言而喻。

时间: 2024-09-28 08:50:42

平均比Hive快24倍,Impala剑指Stinger的相关文章

欢迎光临Li-Fi的高速通讯世界 比Wi-Fi快100倍

能够想象的到,无须安装无线基地台,只要利用目前家中电灯泡,并将每一个灯泡当作热点(Hot Spot)就能达到比现今Wi-Fi快100倍的高速无线通信吗?这样的梦想已经实现了,更可以迈入实用化,这样的技术被称为Li-Fi(Light Fidelity). 在TEDGlobal中,哈洛哈斯(Harald Haas)首度发表了能够实现这一理想的实物, 借助单一个LED所发出人眼无法察觉的高频闪烁光,可以传送比目前基地台更大的数据量. Li-Fi是可视光通讯的一种.相信第一代的公众可视光通讯应该是270

员工平均年薪差十多倍金融业收入差距加大

■新快报见习记者 李璐 又是一年终结时.每当这个时候,各大企业都进入年度清算及总结阶段,银行为达到合格的存贷比数据想尽方法揽储,其他企业也为了做出一张漂亮的年报成绩单而奋力冲刺:而今年的这个敏感时期,另外一个话题同样引起了人们的热议,这就是国企内部收入分配制度改革.近日,财政部和国资委均表示,已就国企收入分配进行摸底. 国企薪酬改革关键期 12月1日到10日,全国23家金融央企高管薪酬将受到来自财政部的专项检查. 4日,国资委企业分配局局长于吉在海口表示,由于国有企业总体职工平均工资比其他类型企

通信业四大预测:5G速率将比4G快100倍

新浪科技 康钊 每年的通信展都是业界发布未来趋势看法的时机,从今年来看,各种预测既大胆又诱人,其中包括未来每个消费者可能想得到10GB带宽:5G的峰值速率将比4G快100倍:从网上下载1GB的高清视频,未来只需要短短1秒等等,这些预测并非虚幻,将给人们带来生活品质提升的期盼. 每个人平均拥有终端将达5部 华为的一份材料中谈到了人与人的联接将扩展到人与物.物与物的联接.华为预计到2025年,智能手机用户将达到80亿,65亿人可以随时随地接入互联网,1000亿终端相互联接. 同时,物理联接承载的流量

4G比3G能快10倍吗?

  目前移动4G的消息也传言称今年年底(2013年)就能使用上,而目前能够使用4G网络的手机还是屈指可数的. 对于4G比3G网络快10倍这个消息,个人认为还是并不尽实的.首先确实理论上4G网络要比3G本身快10倍,但当你在移动的时候,距离手机信号基站的远近.信号强弱.墙体等障碍物因素决定了网速,所以很可能并没有快多少.而且在建立初期,建议还是不要抱着:4G能比3G网络快10倍的心态放在实际的使用当中,理性看待这个事情. 不过4G未来的路还很远,也更坚信它会走的更好,而且在刚上市初期,也许速度提升

比普通闪存快1000倍!阿里率先采用基于3D XPoint技术的Intel Optane SSD

近日,阿里巴巴延续同英特尔在存储领域的深度合作,率先使用基于3D XPoint介质的全新存储设备Intel Optane SSD.结合其特点量身定制的应用场景和优化方案,不仅使技术性能.服务质量.综合成本居于业界领先水平,而且能为客户提供更优质的存储服务.阿里巴巴集团计算和存储事业部资深总监翌峰认为"此类最新型SSD的使用,将有助于优化阿里的应用场景,以及推出新的架构产品". 业界一直对于3D XPoint技术充满期待,在早前的一些报道中,甚至有媒体称,"比NAND闪存快10

互联网女皇:Android普及速度比iPhone快6倍

美国风险投资公司KPCB合伙人玛丽·米克 北京时间11月6日下午消息,美国风险投资公司KPCB合伙人玛丽·米克(Mary Meeker)周二在旧金山发布年中趋势报告称,Android手机的普及速度比iPhone快6倍,并于2012年第一季度超越Windows,成为全 球第一大互联网设备操作系统. 米克素有"互联网女皇"之称,她通常每年发布一次互联网趋势报告,但周一却在彭博社旧金山总部发布了年中报告,对最新的行业趋势进行了总结. 米克开篇便表示,移动行业依然增长强劲.她还展示了2012年

Facebook开源 PyTorch版 fairseq,准确性最高、速度比循环神经网络快9倍

今年5月,Facebook AI研究院(FAIR)发表了他们的研究成果fairseq,在fairseq中,他们使用了一种新型的卷积神经网络来做语言翻译,比循环神经网络的速度快了9倍,而且准确性也是现有模型中最高的.此外,他们在GitHub公布了fair序列建模工具包的源代码和训练好的系统,其他的研究者可以在此基础上建立自己的关于翻译.文本总结和其他任务的模型. 详情可参见快9倍!Facebook开源机器学习翻译项目fairseq一文. 日前,Facebook AI研究团队又在GitHub上开源了

金蝶国际上市10周年市值飙升24倍

金蝶国际董事局主席徐少春在微博中分享上市10周年感受 2月15日晚间消息,金蝶国际今天在香港上市10周年,公司市值由2001年上市时的4亿多港元升至100亿港元,市值规模在10年内飙升24倍. 金蝶国际董事局主席徐少春(微博)在新浪微博上分享了金蝶国际上市10周年的感受.徐少春在微博中表示,"今日是一个特别的日子,是金蝶国际在香港上市十周年!金蝶市值从2001年上市之日4亿多港元升至近日超过100亿,市值规模是2001年上市时的24倍,特别是去年金蝶市值上升了177%.股价反映资本市场对金蝶国际

阿里云首次披露CDN增速 比传统厂商快20倍

3月18日,阿里云发布极速CDN 6.0版,在业界首次提出Cloud Delivery Network(云分发网络)理念.新版CDN融合云计算和大数据技术,涵盖视频和移动两个解决方案以及大数据分析.HTTPS加速等新功能,为客户提供一站式的云CDN解决方案. 与此同时,阿里云也透露2015年云CDN客户数已突破10万,客户规模是传统CDN厂商客户之和的20倍:营收同比增长800%,增速比传统服务商增速快约20倍. 这是继去年率先让利引发行业震动之后,阿里云再次以新的技术和产品引导行业变革,为客户