MaxCompute2.0性能评测:更强大、更高效之上的更快速

  MaxCompute2.0(原Odps):通过性能评测,MaxCompute2.0离线计算比同类产品Hive2.0 on Tez性能优势快约90%以上;MaxCompute2.0从新一代执行引擎到编译引擎、基于代价的优化器全流程针对性能提升做出了卓越改进。

       本次评测侧重于已发布的MaxCompute2.0与离线处理同类竞品及线上稳定版本的性能对比,通过测试我们看到MaxCompute2.0在功能上更强大、使用和发布更新更高效、开放生态的同时针对线上作业占比80%以上的Sql以及其中占比约50%的Sql离线批量计算性能有极大提升。
一,新一代执行引擎
       MaxCompute2.0开发了新一代执行引擎。新的执行引擎是是基于代码生成(Codegen)的执行引擎,同时采用向量化执行和缓存友好的算法。我们可以看到新一代执行引擎执行比开源社区新一代离线计算执行引擎HiveOnTez性能对比优势显著。
       我们记录下在MaxCompute2.0新一代执行引擎和社区新一代离线计算执行引擎HiveOnTez中相同数据量上相同数量执行实例处理的操作时间(单位是秒),下面的表格能够体现出新的新一代执行引擎的性能。

可以看到,在总体数据量T级别instance数量(百级别)情况,相同数据量相同数量的instance执行性能,MaxCompute2.0执行的平均执行性能优于Hive2.0OnTez(Hive2.0已调整最优):
              1- sum with group性能快速1倍
              2-sort-merge join提升约2倍以上
              3-hashjoin提升在1倍以上
              4-stremline提升50%以上
二,新的编译引擎和基于代价的优化器
       MaxCompute2.0开发了全新的解析器和引入开发了基于代价的优化器,在兼容Hive语法和语义和开发应用各种基于规则的优化器(Rbo)的前提下,引入和开发了基于统计数据指导下及其知道下更精确的optimizer组件,增加了全新的优化规则。
       在新的编译引擎和基于代价的优化器下端至端的执行性能进行评测,MaxCompute2.0离线计算对比社区同类产品Hive2.0 on Tez在最优执行下TPC-H benchmark数据:

测试环境:
    1. 集群规模:30台机器测试集群,其中20台计算节点
    2. 机器配置:22core\96G\千兆全双工网络\每节点12块1TB SATA硬盘
    3. 软件版本:MaxCompute2.0Sp24rc5/hive2.0onTez/MaxCompute1.0Sp23s14/hive2.0onMr
    4. 数据规模:1TB(zlib压缩)

       为了保证数据的合理性,性能测试数据都是每个测试案例完成多轮测试的稳定值,测试搭建使用独立的性能评测集群,测试前清理恢复初始环境,多轮测试非连续执行,连续执行完整个测试集合后再执行下一轮的测试集合。
       图中整体对比数据为:
              1- MaxCompute2.0离线计算比同类产品Hive2.0 on Tez性能优势快约90%以上
              2.MaxCompute2.0执行95%以上基准sql执行比hive快,同时我们分析了内部执行细节,去除调度等其他消耗时间,MaxCompute2.0针对执行的性能改进比Hive2.0提升在114%以上
              3-MaxCompute2.0比MaxCompute1.0性能提升68%
              4-MaxCompute2.0比Hive2.0 on Mr整体优势提升190%,其中77%的基准sql性能提升2x以上

三,MaxCompute2.0性能提升及后续性能衍进期待
       1. 兼容社区产品、兼容hive的所有数据类型、遵循SQL 2003、支持多维分组
       2. 研发whole-stage code generation,即通过在运行期间优化那些拖慢整个查询的代码到一个单独的函数中,消除函数调用以及利用CPU寄存器来存放那些中间数据等性能消耗
       3. 更多得优化规则及已有规则的更新升级, Join Reordering全面默认开启,Range partitioning支持等

              基于飞天的一代执行引擎性能有极大提升外,MaxCompute2.0已上线的基于rbo和cbo执行性能优化:
              1- 裁剪规则:列裁剪、分区裁剪、子查询裁剪
              2- 下推/合并规则:谓词下推
              3- 去重规则:Project去重、Exchange去重、Sort去重
              4- 常量折叠/谓词推导
              5- 关联优化:Auto MapJoin、 Skew Join;实现BroadcastHashJoin、ShuffleHashJoin、MergeJoin;Join Reordering
              6- 聚合优化: HashAggregate、SortedAggregate、Deduplicate
              7- 处理优化: GroupBy下推、Exchange下推、Sort下推

欢迎加入MaxCompute钉钉群讨论

时间: 2024-10-28 02:00:21

MaxCompute2.0性能评测:更强大、更高效之上的更快速的相关文章

苹果谷歌地图应用对比评测:苹果3D更强大

苹果谷歌地图应用对比评测:苹果3D更强大导语:美国科技博客Mashable今天刊文称,苹果周一在全球开发者大会(WWDC)上宣布,iOS 6系统将采用苹果自主的地图应用,替代此前的谷歌地图服务.谷歌近期也宣布对地图服务进行升级.谷歌和苹果的地图服务有很多共同点,但也有一些不同之处.Mashable对这两款地图服务进行了对比.以下为文章全文:导航功能,但不支持公交查询苹果地图提供了按方向导航.交通状况查询,以及匿名的交通事故实时报告等功能.不过苹果地图缺少一项城市用户非常喜爱的功能,即公交换乘查询

LINUX 101: 让你的 SHELL 更强大

在我们的关于 shell 基础的指导下, 得到一个更灵活,功能更强大且多彩的命令行界面 为何要这样做? 使得在 shell 提示符下过得更轻松,高效 在失去连接后恢复先前的会话 Stop pushing around that fiddly rodent! bash1 这是我的命令行提示符的设置.对于这个小的终端窗口来说,这或许有些长.但你可以根据你的喜好来调整它. 作为一个 Linux 用户, 你可能熟悉 shell (又名为命令行). 或许你需要时不时的打开终端来完成那些不能在 GUI 下处

windows 7系统比xp系统更强大的功能

一个东西要替代另一个东西,肯定会有某些方面比旧的东西更好,更人性化.而像win7系统要替代xp系统,那么win7系统到底有什么东西是xp所没有的,或者win7系统有什么东西完爆了xp系统. 1 win7系统的开关机运行速度更快 不管是从休眠模式恢复到正常使用模式的速度,还是电脑开机或者关机.win7系统在同样的配置下都会比xp系统快. 2 win7任务栏的改变 从windows 95到windows xp ,任务栏一直都是那样的,有的人会说看图了.而有的人会比较喜欢这样的任务栏,但是不得不说wi

好的设计准则是如何塑造更强大的产品形态的

本文讲的是好的设计准则是如何塑造更强大的产品形态的, 我的工作是为房地产专业人士设计/改善一个旧的 CRM 系统.我们常常会碰到设计的瓶颈,因为我们没有任何设计原则可做参考.我们的用户有着自己对产品喜好的标准.有的用户觉得这个系统是一个能创造销售机会,推进业务和管理联系人的好工具.但有些人会认为这系统奇怪且不易操作,会使完成任务变得繁琐费时.是什么限制了它,让它需要改进那么多东西呢? 新功能 vs. 存在的问题 我们与我们的研究团队合作,对用户进行测试与访谈.包括测试已有功能和重新设计原型.我们

重磅!支付宝小程序悄然上线,分享能力更强大!ofo小程序怒怼摩拜小程序

支付宝小程序功能与微信小程序相仿,不同的是,支付宝将解决流量分发问题.enable(帮助)B服务C,也就是用互联网的技术.产品帮助商家更好地服务用户,是一个长期的过程. 收到@盛永辉的消息,支付宝小程序低调上线,与微信小程序比起来,似乎更平静,不为众人所知.原先有推文表示支付宝即将发布小程序:支付宝小程序下周也要上线,是真的吗?,可是迟迟没有消息. 现在公测开始,不过与原先的设想还是有差距的,小李君已经帮你提前内测,下面附上测试报告. 1.入口问题 支付宝小程序并未在支付宝APP发现明显的入口.

powerMock比easyMock和Mockito更强大(转)

powerMock是基于easyMock或Mockito扩展出来的增强版本,所以powerMock分两种类型,如果你习惯于使用easyMock的,那你就下载基于easyMock的powerMock,反之你喜欢用mockito的话就下载另一种PowerMock.     powerMock之所以说它更强大是因为它解决了easyMock和Mockito没有解决的问题,就是可以模仿static,private和final的方法.举例如下: public class User{ private User

Targus:让品牌更强大

■文/本刊记者闫芬 实习记者冯联联 发自北京 说起Targus(泰格斯),很多人并不陌生.人们日常所用的很多知名品牌的电脑包大多出自Targus名下.Targus是著名的笔记本外设厂家,著名的IBM红点包就出自Targus之手. 据NPD 截至2009年6月的调查数据,Targus的笔记本电脑包销量以绝对优势稳居北美市场占有率第一名.Targus与联想.惠普.戴尔.索尼.东芝.宏碁.华硕等电脑制造商建立了紧密的合作关系,确立了自己在行业中的领导地位. 作为一个全球知名品牌,若要求进一步发展,当然

Hortonworks联手Red Hat,构建更强大的Hadoop

如今的Hadoop可以称得上是大数据的代名词,Cloudera.MapR和Hortonworks已经形成三足鼎立之势,Cloudera瞄准高利润的大订单,MapR致力于开发下一代性能强的Hadoop,Hortonworks则希望借助开源社区和合作伙伴的力量壮大自己.近日,Hortonworks与Red Hat联手,将Hadoop和OpenStack等技术融合,构建更加强大的平台,GigaOM的分析师Derrick Harris为我们做了独到的分析. Red Hat和Hortonworks将整合大

让CSS更简洁、高效

了解CSS的查找匹配原理,让CSS更简洁.高效 用了这么多年的CSS,现在才明白CSS的真正匹配原理,不知道你是否也跟我一样?看1个简单的CSS: DIV#divBox p span.red{color:red;},按习惯我们对这个CSS 的理解是,浏览器先查找id为divBox的DIV元素,当找到后,再找其下的所有p元素,然后再查找所有span元素,当发现有span的class为red的时候,就应用该style.多么简单易懂的原理,可是这个理解却是完完全全相反.错误的. 匹配原理: 浏览器CS