不同SQL-on-Hadoop引擎怎样满足BI负载

文章讲的是不同SQL-on-Hadoop引擎怎样满足BI负载,如何让不同的 SQL-on-Hadoop 引擎满足BI工作负载根据新的基准,三个领先 SQL-on-Hadoop 引擎——ApacheImpala 2.3、 Apache Spark 1.6 和 Apache Hive 1.2,它们都有独特的优势和弱点,它们可能非常适合一些商业智能 (BI) 用例但是并不适合另一些。

  AtScale创始人和首席执行官戴夫·马里亚尼表示:“现在其中任何一个引擎都不满足所有的要求,我们客户部署的时候,都是穿插多个引擎的。”目前,AtScale专攻对 Hadoop 的双启动。

  基于Hadoop 的商业智能,AtScale 着手为他们的 BI 技术评估用例选择最佳的SQL-on- Hadoop 技术。AtScale 的测试团队使用星级架构基准 (SSB)的数据集,基于广泛使用的 TPCH 数据进行修改,以便找出更准确地表示典型的双向拉伸的数据布局。数据集允许测试团队跨越大表进行测试查询︰lineorder 表包含近 60 亿行,其中大客户表含超过 10 亿行。

  SQL-on-Hadoop引擎有不同“甜蜜点”的工作负载

  马里亚尼解释 AtScale 根据三个关键的要求来评估 SQL-on-Hadoop 引擎是否适合继续满足 BI 工作负载 ︰

  1.对大数据的执行力。SQL-on- Hadoop 引擎必须能够不断分析几十亿或数万亿的数据行,而不会生成错误,生成订单的响应时间在10秒到100秒之间。

  2.快速处理小数据。引擎需要对已知的查询模式提供交互式的性能,其中很重要的是,SQL-on- Hadoop 引擎返回小数据集 (几数以千计或数以百万计的行)结果时时间不超过几秒钟。

  3.多用户稳定运行。企业 BI 用户基地由几百或甚至数千个数据工人组成。底层的 SQL-on- Hadoop 引擎必须在高并发分析工作负载下可靠地执行。

  在雅虎领导建立了世界上最大 OLAP 多维数据集的马里尼亚表示:根据测试团队在金融服务、 医疗保健、 零售、 电信和其他行业一大批企业的测试结果,他相信这三个标准是做基于Hadoop的BI企业必须满足的基本要求。

  AtScale 的产品管理副总裁Josh Klahr补充到:“我们给很多真实企业做了评价报告,其中每一个技术的计算器都作为其评价过程的一部分”。

  最后测试团队发现三个引擎合作可以通过测试并足够稳定,能够支持 BI 工作负载,但单独一个引擎不适应所有的需要。每个引擎都有自己的"甜蜜点",企业很可能会发现混合使用所有的引擎才是最适合自己的。

  虽然Hive一般认为是为SQL-on-Hadoop默认使用的,但是因为它较高的延迟性所以并不适合交互式查询。

  马里亚尼说,"如果您的交互式查询引擎只使用Hive,那么等待2.4 秒就是你能做到的最好的情况"。

  尽管Hive可能缓慢,但它却是最稳定的,并且可以跨越多个查询类型。

  马里亚尼补充道:"Hive尽管缓慢,但它总是会完成了比赛。"

  另一方面,Impala和Spark他们主要应用在较小的数据集的时候。Impala在负荷领域优于Spark,但马里安尼发现Spark 1.6 与Spark 1.5 相比性能有了巨大的改进,他预计Spark未来将在大型开源社区占有优势。Cloudera看重Impala未来发展的附加价值,最近向Apache 软件基金会提出了捐赠议案。

  现在,Impala是大用户用例之首。

  "Impala在并发方面的表现很卓越,"马里亚尼说。"如果你要有一大堆的小用户用例运行,需要快速查询,Impala会是比Spark更好的选择。”

  "如果速度并不是一个优先考虑的事项,但这时稳定性和可靠性是我所需的,那么我会选择去选择Hive作为我的数据管道引擎,"他补充道。"对于需要大批处理工作负载,我会选择Hive。如果我想我的BI用户能访问到我的仓库,我会选择使用Spark或Impala。

  马里亚尼指出,虽然现在没有基准引擎像 Apache Drill或者Apache Presto,但是很快会来到。

  "你永远不会知道这其中谁会是黑马。"他说。

作者: 田晓旭 

来源:IT168

原文链接:不同SQL-on-Hadoop引擎怎样满足BI负载

时间: 2024-10-30 22:40:38

不同SQL-on-Hadoop引擎怎样满足BI负载的相关文章

开源SQL in Hadoop解决方案:我们处于什么位置?

随着Facebook开源了最近发布的Presto,已经非常拥挤的SQL in Hadoop市场变得更加错综复杂.一些开源工具正在努力获得开发者的注意:Hortonworks 围绕着Hive创建的Stinger.Apache Drill.Apache Tajo.Cloudera的Impala.Salesforce的Phoenix(用于HBase)以及现在的Facebook Presto. 已经在产品环境中使用Hadoop的组织需要交互式的SQL查询支持,同时能够与已有的BI工具进行平滑的集成.来自

盘点SQL on Hadoop中用到的主要技术

考虑到系统使用的广泛程度与成熟度,在具体举例时一般会拿Hive和Impala为例,当然在调研的过程中也会涉及到一些其他系统,如Spark SQL,Presto,TAJO等.而对于HAWQ这样的商业产品和apache drill这样成熟度还不是很高的开源方案就不做过多了解了. 系统架构 Runtime Framework v.s. MPP 在SQL on Hadoop系统中,有两种架构,一种是基于某个运行时框架来构建查询引擎,典型案例是Hive;另一种是仿照过去关系数据库的MPP架构.前者现有运行

SQL Server+Hadoop 变身大数据解决方案

文章讲的是SQL Server+Hadoop 变身大数据解决方案,在数据库市场中,微软的SQL Server是最受关注的产品之一.在数据库知识网站DB-Engines每月公布的数据库流行度排行榜中,SQL Server几乎稳占第二名的位置.但从这个榜单每月的变化中也可以看出,大量NoSQL数据库的排名不断上升,已经开始威胁到传统数据库的地位. "以不变应万变"不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场,微软就是其中的一个代表.微软的改变最早是为

Denali不复存在:SQL Server 2012已宣布关注BI和大数据

在最近的PASS峰会上,微软宣布SQL Server的下一版本会叫做SQL Server 2012,它之前的开发代号是"Denali".此外还为其它产品赋予了官方的名称,包括Power View(之前叫做"Crescent")和SQL Server 数据工具(之前叫做"Juneau"). 最新版本的SQL Server 2012社区技术预览版是在七月份发布的,版本号是CTP 3.微软说该项目已经接近完成,并且期望在明年上半年发布正式版本,尽管还没

SQL on Hadoop的最新进展及7项相关技术分享

大数据最大的魅力在于通过技术分析和挖掘带来新的商业价值.SQL on Hadoop是非常关键的一个方向.CSDN云计算特别邀请梁堰波撰写这篇文章,对7种最新技术做深度阐述.文章较长,但相信一定有收获.2013年12月5日-6日,以"应用驱动的架构与技术"为主题的第七届中国大数据技术大会(Big Data Technology Conference 2013,BDTC 2013)召开之前,我们还将组织好友就热点技术进行深入讨论,如果有问题,欢迎在评论部分留言. 大数据是现在非常热门的一个

SQL Server 2008引擎组件

首先让我们先来看看SQL Server2008的引擎组件,SQLServer2008有四大组件:协议.关系引擎.存储引擎和SQLOS. 协议层(Protocol Layer) 当一个应用程序与SQL Server数据库引擎通讯时,协议层提供的应用程序编程接口利用微软自定义的tabular data stream(TDS)package来规范通讯格式.这一层的意义在于向应用程序提供访问SQL Server的接口. SQL Server Network Interface(简称SNI) SNI是在服

使用 Osql 工具管理 SQL Server 桌面引擎 (MSDE 2000)应用介绍_数据库相关

概要 "SQL Server 桌面引擎"(也叫 MSDE 2000)没有自己的用户界面,因为它主要设计为在后台运行.用户通过 MSDE 2000 嵌入的程序与它交互. MSDE 2000 提供的唯一工具是 Osql .可执行文件 Sql.exe 在 MSDE 2000 的默认实例的 MSSQL/Binn 文件夹中. 本文重点讨论如何通过使用 Osql 工具管理 MSDE 2000. 何为 Osql? Osql 工具是一个 Microsoft Windows 32 命令提示符工具,您可以

百度-sql server2014连接数据库引擎

问题描述 sql server2014连接数据库引擎 有没有高手看一下啥意思,百度了一下午也不行,连接失败. 解决方案 解决方案二: 解决方案三: 解决方案四: 解决方案五: 解决方案六: 解决方案七: 刚下的2014 怎么连接不到,重置了电脑名称也不行,有没有大神求解啊. 解决方案八: 用localhost,然后用windows身份认证 解决方案九: 后台相关的服务开了没有

SQL Server 存储引擎-剖析Forwarded Records

原文:SQL Server 存储引擎-剖析Forwarded Records 我们都知道数据在存储引擎中是以页的形式组织的,但数据页在不同的组织形式中其中对应的数据行存储是不尽相同的,这里通过实例为大家介绍下堆表的中特有的一种情形Forwared Records及处理方式. 概念 堆表中,当对其中的记录进行更新时,如果当前数据页无法满足更新行的容量,此时这行记录将会转移到新的数据页中,而原数据页中将会留下指针(文件号,页号,槽号)链接到新的数据页中. Code 创建测试数据 create dat