HBase 的 Spark SQL Astro

Astro 详细介绍

华为2015年7月20日在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式开源。Spark SQL on HBase package 项目又名 Astro，端到端整合了 Spark，Spark SQL和HBase的能力，有助于推动帮助Spark进入NoSQL的广泛客户群，并提供强大的在线查询和分析以及在垂直企业大规模数据处理能力。

Apache HBase 是数据在 HDFS 上的 Key-Value 存储。它用来给 Google 的 Big Table 建模，并提供了 API 用于查询数据。这些数据通过它的“row keys”来组织、区分和发布。在每个分区上，数据被指定的“列”数据集合“列族”物理分区。这些数据模型是宽且零散的，在这些表中列是动态的，零散的。

尽管 HBase 是非常有用的大数据存储，但是它的访问机制非常原始，只能通过客户端的 API，Map/Reduce 接口和交互的 shell。SQL 访问 HBase 数据可通过 Map/Reduce 或者接口机制，如 Apache Hive 和 Impala，或者一些“本地的” SQL 技术，如 Apache Phoenix。前者实现和使用起来通常比较便宜，它们的延迟和效率通常不如后者，并且只适用于离线分析。后者，与之相反，通常执行得更好，并且限定多个作为联机引擎。它们通常在特定的执行引擎的顶层。

当前的 Astro 1.0 依赖于 Spark 1.4.0,HBase 0.98

构建方法（要求 Maven）：

$ git clone https://github.com/HuaweiBigData/astro
$ cd astro
$ mvn -DskipTests clean install
$ mvn clean install
$mvn -Phbase,hadoop-2.4 test  #运行测试

文章转载自开源中国社区[https://www.oschina.net]

时间： 2024-08-22 14:33:34

HBase 的 Spark SQL Astro的相关文章

关于CarbonData+Spark SQL的一些应用实践和调优经验分享

大数据时代,中大型企业数据的爆发式增长,几乎每天都能产生约 100GB 到 10TB 的数据.而企业数据分系统构建与扩张,导致不同应用场景下大数据冗余严重.行业亟需一个高效.统一的融合数仓,从海量数据中快速获取有效信息,从而洞察机遇.规避风险. 在这样的现状下,CarbonData 诞生了,作为首个由中国贡献给Apache社区的顶级开源项目,CarbonData 提供了一种新的融合数据存储方案,以一份数据同时支持多种大数据应用场景,并通过丰富的索引技术.字典编码.列存等特性提升了 IO 扫描和计

spark sql简单示例

运行环境集群环境:CDH5.3.0 具体JAR版本如下: spark版本:1.2.0-cdh5.3.0 hive版本:0.13.1-cdh5.3.0 hadoop版本:2.5.0-cdh5.3.0 spark sql的JAVA版简单示例 spark sql直接查询JSON格式的数据 spark sql的自定义函数 spark sql查询hive上面的表 import java.util.ArrayList; import java.util.List; import org.apache.sp

Spark SQL组件源码分析

功能 Spark新发布的Spark SQL组件让Spark对SQL有了别样于Shark基于Hive的支持.参考官方手册,具体分三部分: 其一,能在Scala代码里写SQL,支持简单的SQL语法检查,能把RDD指定为Table存储起来.此外支持部分SQL语法的DSL. 其二,支持Parquet文件的读写,且保留Schema. 其三,能在Scala代码里访问Hive元数据,能执行Hive语句,并且把结果取回作为RDD使用. 第一点对SQL的支持主要依赖了Catalyst这个新的查询优化框架(下面会给

整理对Spark SQL的理解

Catalyst Catalyst是与Spark解耦的一个独立库,是一个impl-free的执行计划的生成和优化框架. 目前与Spark Core还是耦合的,对此user邮件组里有人对此提出疑问,见mail. 以下是Catalyst较早时候的架构图,展示的是代码结构和处理流程. Catalyst定位其他系统如果想基于Spark做一些类sql.标准sql甚至其他查询语言的查询,需要基于Catalyst提供的解析器.执行计划树结构.逻辑执行计划的处理规则体系等类体系来实现执行计划的解析.生成.

Spark SQL性能优化

性能优化参数针对Spark SQL 性能调优参数如下: 代码示例 import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.api.java.JavaSQLContext; import org.apache.spark.sql.api.java.Row; import org.a

Spark SQL 物理执行计划各操作实现

SparkStrategy: logical to physical Catalyst作为一个实现无关的查询优化框架,在优化后的逻辑执行计划到真正的物理执行计划这部分只提供了接口,没有提供像Analyzer和Optimizer那样的实现. 本文介绍的是Spark SQL组件各个物理执行计划的操作实现.把优化后的逻辑执行计划映射到物理执行操作类这部分由SparkStrategies类实现,内部基于Catalyst提供的Strategy接口,实现了一些策略,用于分辨logicalPlan子类并替换为

Spark SQL中的DataFrame

在2014年7月1日的 Spark Summit 上,Databricks 宣布终止对 Shark 的开发,将重点放到 Spark SQL 上.在会议上,Databricks 表示,Shark 更多是对 Hive 的改造,替换了 Hive 的物理执行引擎,因此会有一个很快的速度.然而,不容忽视的是,Shark 继承了大量的 Hive 代码,因此给优化和维护带来了大量的麻烦.随着性能优化和先进分析整合的进一步加深,基于 MapReduce 设计的部分无疑成为了整个项目的瓶颈. 详细内容请参看 Sh

《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南（一）

Spark SQL, DataFrames 以及 Datasets 编程指南概要 Spark SQL是Spark中处理结构化数据的模块.与基础的Spark RDD API不同,Spark SQL的接口提供了更多关于数据的结构信息和计算任务的运行时信息.在Spark内部,Spark SQL会能够用于做优化的信息比RDD API更多一些.Spark SQL如今有了三种不同的API:SQL语句.DataFrame API和最新的Dataset API.不过真正运行计算的时候,无论你使用哪种API或语

使用Spark SQL构建交互式查询引擎

前言 StreamingPro 原来仅仅是用来作为Spark Streaming的一个配置化+SQL封装,然而不经意间,已经涵盖了批处理,交互式查询等多个方面.今天就讲讲如何使用StreamingPro构建一个交互式查询引擎. 准备工作下载StreamingPro README中有下载地址如果你使用了 Spark 2.0 版本,则要下载对应页面上的Spark 安装包.因为目前Spark 2.0 默认支持Scala 2.11.我提供了一个机遇Scala 2.10版本的. 我们假设您将文件放在

猜你喜欢

Samba4.0正式版上线，支持活动目录

Samba 4.0 正式版发布了,这是首个支持兼容微软活动目录的自由软件! Samba 4.0 包括一个 LDAP 目录服务器.Heimdal Kerberos 认证服务器.安全动态 DNS 服务 ...

NetBeans IDE 6.0 用户界面设计

Beans Binding.Swing Application Framework 以及希望在 IDE 中实现的其它特性自NetBeans 5.0 以来,人们最常谈及的且具有创新性的特性是 Proj ...

C++/CLI的“值类型的强类型装箱实例”

近来接到几个朋友问Visual C++ 2005 (C++/CLI) Webcast中讲的"值类型的强类型装箱实例"是什么? 讲座比较匆忙,因此对这个技术点只是点了一下,没有详细展 ...

JS 去前后空格大全(IE9亲测)

本文为大家详细介绍下JS去前后空格及所有空格,代码在IE9环境下测试,感兴趣的朋友可以参考下哈,希望对大家有所帮助复制代码代码如下: <html> <head> < ...

PowerPoint课件播放时的几个快捷键

在演示PowerPoint课件时,如果要实现以下特殊功能,不必专门停下讲解而特意通过菜单调用,敲一下键盘上的某一键便可实现,一点也不影响讲课的效果. 1. 播放过程中,如果要使屏幕突然变黑,可按& ...

Win7系统WiFi共享精灵手机连不上怎么办？

WiFi共享精灵是当前最为常用的无线热点共享软件,可实现将电脑变身无线热点的功能,进而方便我们实现免费无线上网功能.Win7系统用户,在使用WiFi共享精灵过程中,发现WiFi共享精灵存在很多问题 ...

金士顿笔记本内存怎么鉴别真假?

最简单的办法就是拨打官方的电话,输出查询号码,一定要拨打官方的电话,不能拨打内存包装上印的电话号码(当然如果是真的印的就是官方了) 真假区别之处主要有以下三点: 1.在Kingston这个标志右上 ...

射手网关闭字幕怎么下载

一.射手影音播放器 1.用射手播放器打开一个视频,在画面中右击,弹出菜单,再依次选择"字幕">"智能匹配">"智能字幕下载" ...

C++高级进阶第三季：求余运算符+运算符结合律

一.求余运算符 %用于求余数,优先级与*和/相同,结合律也是从左至右. 要求两个操作数均为整数(或可以隐式转换成整数的类型),故:14.2%3就是错误的,因为double不能隐士转换为整形. #inc ...

联想企业网盘基于Docker构建分布式部署框架实践

本文讲的是联想企业网盘基于Docker构建分布式部署框架实践[编者的话]本文首先介绍了企业级分布式系统部署所面临的挑战,并且结合联想云存储自有框架研发经验分享了一些解决问题的思想和具体做法.最后还与K ...

deque函数: deque容器为一个给定类型的元素进行线性处理,像向量一样,它能够快速地随机访问任一个元素,并且能够高效地插入和删除容器的尾部元素.但它又与vector不同,deque支持高效插入和 ...

linux脚本-linux同时执行一个目录下的所有脚本。

问题描述 linux同时执行一个目录下的所有脚本. linux同时执行一个目录下的所有脚本,我使用的是下面的命令: #!/system/bin/sh for file in ls /data/misc ...

ai-ccf 数列分段求答案求答案求答案

问题描述 ccf 数列分段求答案求答案求答案问题描述给定一个整数数列,数列中连续相同的最长整数序列算成一段,问数列中共有多少段? 输入格式输入的第一行包含一个整数n,表示数列中整数的个数. 第二 ...

androidapp-AndroidApp点击登陆按钮停止运行

问题描述 AndroidApp点击登陆按钮停止运行代码找不到哪错了,但还是停止运行了 <?xml version="1.0" encoding="utf-8&qu ...

linux看git 创建分支、删除本地分支、查看远程分支、本地分支例子

1 查看远程分支 $ git branch -a * br-2.1.2.2 master remotes/origin/HEAD -> origin/master remotes ...

跟老男孩学Linux运维：Shell编程实战2.3　Shell脚本在Linux运维工作中的地位

2.3 Shell脚本在Linux运维工作中的地位 Shell脚本语言很适合用于处理纯文本类型的数据,而Linux系统中几乎所有的配置文件.日志文件(如NFS.Rsync.Httpd.Nginx.LV ...

PetaPoco的几个特性

在PetaPoco中,Brad并没有定义太多Attribute来修饰Models或Fields.这些为数不多的几个Attribute如下: ColumnAttribute ExplicitColumn ...

朋友圈中点赞到底有何微妙之处？

时代发展到今天,托技术进步的福,人类的生活从软件到硬件都革了命,社群关系也跟着不断改朝换代:互联网的诞生让我们有了网友,这个大集体又从版友.博友.淘友一路更新,现已进入"赞友"时间 ...

plsql-求帮忙，这表，还有代码有什么错

问题描述求帮忙,这表,还有代码有什么错表描述客户性别代码表表名 T_GENDER 字段描述字段名字段类型其他说明性别 GENDER CHAR(1) RK 性别描述 GENDER_NAM ...

如何配置WebSphere Commerce V7 Feature Pack 5

通过这些工作,您将完成 http://www.aliyun.com/zixun/aggregation/13387.html">WebSphere Commerce.WebSphere ...

强类型DataSet 主外键关系的问题

问题描述主键表StudentIdintPK,Namenvarchar,Ageint外键表ScoreIdintPK,StuIdint,CSharpint,JavaintStuIdFkStudent(I ...

PHP4和PHP5性能测试和对比测试代码与环境_php技巧

作者:heiyeluren博客:http://blog.csdn.net/heiyeshuwu时间:2007年8月6日PHP 4到今年年底PHP Group将不再对其进行支持了,所以为了让大家更有信心 ...

android工程下不能运行java main程序的解决方法_Android

右击有main方法的类 ===> Run as ===> Run Configurations ===>双击java application ===> 单击有main方法的类 ...

Python脚本实现网卡流量监控_python

#/usr/bin/env/python #coding=utf-8 import sys,re,time,os maxdata = 50000 #单位KB memfilename = '/tmp/n ...

如何在Angular.JS中接收并下载PDF_AngularJS

介绍 jsPDF 是一个使用Javascript语言生成PDF的开源库.你可以在Firefox插件,服务端脚本或是浏览器脚本中使用它. 客户端Safari 和 iPhone Safari 支持得最好, ...

SOSO地图JS画出标注和中心点以html形式运行_javascript技巧

直接贴出代码,这个可以在本地创建一个html文件直接运行: 复制代码代码如下: <!DOCTYPE html> <html> <head> <meta ht ...

【多图】SQL Server 2000如何向SQL Server 2008 R2推送数据

最近做的一个项目要获取存在于其他服务器的一些数据,为了安全起见,采用由其他"服务器"向我们服务器推送的方式实现.我们服务器使用的是sql server 2008 R2,其他&quo ...

LEN-5519：Lenovo System Update 越权漏洞

Lenovo 安全公告:LEN-5519 潜在影响:本地越权漏洞重要性:高影响范围:Lenovo 摘要描述: 内部测试期间,Lenovo 在 Lenovo System Update(前称 Thi ...

IBM Rational Rhapsody Version 8.0.3新功能集锦

还增加了对开发符合航空电子学领域的 DO-178B/C 标准和http://www.aliyun.com/zixun/aggregation/36222.html">医疗设备领域 IE ...

css input定义背景图片

这就是我测试时定义的input的样式哦,下面我们来看看我的定义代码吧. <style> .w{ width:160px; height:19px; border:1px sol ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.020 s.