MapR试图将SQL-on-Hadoop推向新水平

  MapR今天更新了其Hadoop发行版,新增了Apache Drill 0.5,以减少繁重的数据工程工作。

  Drill是开源分布式ANSI查询引擎,主要用于自助服务数据分析。这是谷歌的Dremel系统的开源版本,谷歌的这个系统主要用于交互式查询大型数据集—这支持其BigQuery服务器。Apache Drill项目的既定目标是使其能够扩展到1万服务器或者更多服务器,同时在数秒内处理PB级数据和万亿记录。

  Drill查询引擎可以实现以下功能:

  · 以其原本的格式(包括Parquet、JSON文件和 HBase表)分析数据,而不需要数据库管理员(DBA)的干预。

  · 分析不断变化的半结构化/嵌套数据,这些数字来自NoSQL数据存储,例如MongoDB和在线REST API。

  · 创建可同时结合不同Hadoop数据源的查询,例如文件、HBase表和Hive表。

  · 重复使用现有SQL技能集、BI工具和Apache Hive部署

  “我们对此非常激动,因为这打开了SQL-on-Hadoop的新时代,”MapR公司首席营销官Jack Norris表示,“重点在于Hadoop的自助数据分析,而不需要IT部门的参与。”

  因为Drill支持在各种不同格式运行SQL查询,它可以用来分析实时数据,而不需要花几周时间来准备和管理模式和设置ETL任务。这样,它可以跨多个数据来源提供瞬时、自助数据分析。

  “企业希望具有现有SQL分析技能的用户能够访问Hadoop和NoSQL数据库中存储的数据,”451研究公司数据平台和分析研究主管Matt Aslett表示,“Apache Drill能够提供对Hadoop中数据的访问,而不需要集中式模式(+本站微信networkworldweixin),也不需要具有复杂结构的 NoSQL数据集。”

  “每个其他SQL-on-Hadoop解决方案依赖于固定模式,无论是Hive或Tez,”Norris补充说,“无论你讨论的是MapReduce、 Hive或一些其他SQL-on-Hadoop解决方案,我们都需要做这种建模、数据转换和管道来支持分析。Drill能够发现数据,而不需要等待,为你提供速度和灵活性的优势。”

  MapR正在封装Drill与MapR 4.0.1,也是今天发布。新版本的Hadoop发行版为用例扩展了其实时功能,包括运营应用程序、交互式查询和流处理。

  这个新版本包括多个批处理框架,其中包括MapReduce 1.x和2.x (基于YARN)、以及Spark(0.9和1.0.2)。它还支持5个SQL-on-Hadoop技术:Hive(0.11、0.12、0.13)、 Drill(0.5)、SparkSQL(1.0.2)、Impala(1.3.1)以及与HP Vertica的认证集成。它还支持HBase(0.94.21、0.98.4)和MapR-DB NoSQL技术,以及三种机器学习和图形库,以Mahout(0.8, 0.9)、MLLib (0.9, 1.0.2)和GraphX的形式

时间: 2024-08-01 12:51:17

MapR试图将SQL-on-Hadoop推向新水平的相关文章

盘点SQL on Hadoop中用到的主要技术

考虑到系统使用的广泛程度与成熟度,在具体举例时一般会拿Hive和Impala为例,当然在调研的过程中也会涉及到一些其他系统,如Spark SQL,Presto,TAJO等.而对于HAWQ这样的商业产品和apache drill这样成熟度还不是很高的开源方案就不做过多了解了. 系统架构 Runtime Framework v.s. MPP 在SQL on Hadoop系统中,有两种架构,一种是基于某个运行时框架来构建查询引擎,典型案例是Hive;另一种是仿照过去关系数据库的MPP架构.前者现有运行

SQL Server+Hadoop 变身大数据解决方案

文章讲的是SQL Server+Hadoop 变身大数据解决方案,在数据库市场中,微软的SQL Server是最受关注的产品之一.在数据库知识网站DB-Engines每月公布的数据库流行度排行榜中,SQL Server几乎稳占第二名的位置.但从这个榜单每月的变化中也可以看出,大量NoSQL数据库的排名不断上升,已经开始威胁到传统数据库的地位. "以不变应万变"不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场,微软就是其中的一个代表.微软的改变最早是为

SQL on Hadoop的最新进展及7项相关技术分享

大数据最大的魅力在于通过技术分析和挖掘带来新的商业价值.SQL on Hadoop是非常关键的一个方向.CSDN云计算特别邀请梁堰波撰写这篇文章,对7种最新技术做深度阐述.文章较长,但相信一定有收获.2013年12月5日-6日,以"应用驱动的架构与技术"为主题的第七届中国大数据技术大会(Big Data Technology Conference 2013,BDTC 2013)召开之前,我们还将组织好友就热点技术进行深入讨论,如果有问题,欢迎在评论部分留言. 大数据是现在非常热门的一个

sql server 2005中新增加的try catch学习

server sql server 2005中新增加的try catch,可以很容易捕捉异常了,今天大概学习看了下,归纳下要点如下 基本用法BEGIN TRY     {  sql_statement |  statement_block  }END TRYBEGIN CATCH     {  sql_statement |  statement_block }END CATCH,和普通语言的异常处理用法差不多,但要注意的是,SQL SERVER只捕捉那些不是严重的异常,当比如数据库不能连接等这

SQL Server 2000 的新特性

1.2 SQL Server 2000 的新特性SQL Server 2000 全面扩展了SQL Server 7.0 的性能可靠性和易用性使它成为一个杰出的数据库平台可用于大型联机事务处理数据仓库以及电子商务等SQL Server 2000 的新特性主要有以下内容 1.2.1 数据库增强SQL Server 2000 引进了数据库和服务器增强功能以及其它一些新的特性1 XML Extensible Markup Language 扩展标示语言支持关系数据库引擎可以返回XML 文档数据XML 数

SQL Server 2000的新特性:bigint数据类型

尽管int依然是SQL Server 2000中最主要的整数数据类型,但是SQL Server 2000还是新增加了整数数据类型bigint,它应用于整数超过int数据范围的场合. int数据类型所表示的数值范围从-2^31到2^31-1,也就是说,你可以用int数据类型来表达-2,147,483,648到2,147,483,647(即大约正负二十亿)之间的整数.一个int型占用四个字节的存储空间. 而bigint可以精确的表示从-2^63到2^63-1(即从-9,223,372,036,854

MS SQL基础教程:SQL Server 2000的新特性

1.2 SQL Server 2000 的新特性 SQL Server 2000 全面扩展了SQL Server 7.0 的性能可靠性和易用性使它成为一个杰出的数据库平台可用于大型联机事务处理数据仓库以及电子商务等 SQL Server 2000 的新特性主要有以下内容 1.2.1 数据库增强 SQL Server 2000 引进了数据库和服务器增强功能以及其它一些新的特性 1 XML Extensible Markup Language 扩展标示语言支持 关系数据库引擎可以返回XML 文档数据

开源SQL in Hadoop解决方案:我们处于什么位置?

随着Facebook开源了最近发布的Presto,已经非常拥挤的SQL in Hadoop市场变得更加错综复杂.一些开源工具正在努力获得开发者的注意:Hortonworks 围绕着Hive创建的Stinger.Apache Drill.Apache Tajo.Cloudera的Impala.Salesforce的Phoenix(用于HBase)以及现在的Facebook Presto. 已经在产品环境中使用Hadoop的组织需要交互式的SQL查询支持,同时能够与已有的BI工具进行平滑的集成.来自

SQL Server 2012 FileTable 新特性详解

FileTable是基于FILESTREAM的一个特性.有以下一些功能: •一行表示一个文件或者目录. •每行包含以下信息: • •file_Stream流数据,stream_id标示符(GUID). •用户表示和维护文件及目录层次关系的path_locator和parent_path_locator •有10个文件属性 •支持对文件和文档的全文搜索和语义搜索的类型列. •filetable强制执行某些系统定义的约束和触发器来维护命名空间的语义 •针对非事务访问时,SQL Server配置FIL