drill-A question about Apache Drill

问题描述

A question about Apache Drill

There are 2 tables they are table emp(ename, deptno) and table dept(deptno, dname). Assumption that table emp is in HBase and table dept is in Hive. Now I want to use Drill to join those 2 tables. I want to know is it possible?

解决方案

https://segmentfault.com/a/1190000002652348

时间: 2024-08-04 07:32:17

drill-A question about Apache Drill的相关文章

Apache Drill 成为 Apache 基金会顶级项目

Apache 基金会今天宣布 Apache Drill 成为基金会的顶级项目.项目新的首页是:http://drill.apache.org/ 为了帮助企业用户寻找更为有效.加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为"Drill"的开源项目.Apache Drill 实现了 Google's Dremel. 该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速).而"Drill&qu

开源的对决,MapR将Apache Drill引入企业应用

[编者按]近日,MapR正式将Apache Drill整合进该公司的大数据处理平台,并开源了一系列大数据相关工具.时至今日,在高度竞争的Hadoop领域,开源已成为众多公司的利器,他们纷纷通过贡献更多的代码来保护自己,也通过开源来攻击其它公司的开发性.就这个事件,Derrick Harris在Gigaom上做了简要分析. 以下为译文 近日,MapR,Apache Drill项目的创建者,已经将该技术的初期版本整合到该公司的大数据平台.该公司称这个版本的Drill为0.5,以"开发者预览版&quo

Drill官网文档翻译四 Drill的性能

(翻译自apache drill 官网.) Drill是从地基开始就奔向高性能和大数据集去设计的,下面列出来的是Drill能够做到高性能的核心要点. 分布式的引擎 Drill提供了一个强大的分布式引擎来处理查询.用户可以从集群的任何一个节点是提交查询.你可以添加新的节点到集群中,以为了支持更多用户的更多数据,或是获得更好的性能. 列式执行 通过使用一种纯内存的分层的,列式的数据模型,Drill同时为列式存储,列式执行都做了优化.当数据是存储在列式存储的文件上时(比如像Parquet)Drill会

Drill官网文档翻译二:Drill查询的执行

(翻译自Drill官网) 当您提交Drill查询的时候,客户端或应用程序会把查询以SQL语句的形式发送到Drill集群的一个Drillbit.Drillbit是在每个在线的Drill节点上运行的进程,它负责协调,规划和执行查询,并按照最大限度地实现数据本地化的原则在集群中分发查询. 下图描述了客户端,应用和drillbit之前的通信: 从客户端或应用端接收查询的那个drillbit会成为这个查询是的"接待员",会负责驱动整个查询.这个"接待员"drillbit进程中

Drill官网文档翻译一 基本架构

(翻译自apache drill 官网) 架构总览 Apache drill是在大规模数据集场景下,可以低延迟地进行结构和半结构化/嵌套数据结构查询的一个分布式查询引擎.受到谷歌公司的Dremel的启发,Drill被设计出来以支持几千个节点和PB级别的数据规模下,支持交互响应级别的商务智能分析和查询. Drill也适用到在大规模数据集场景下进行简单而迅速的查询.Drill能够查询像是JSON或是Parquet这种嵌套的数据,也能动态地发现schema.Drill并不需要一个中央的元数据库. 顶层

Drill官网文档翻译五:连接到数据源

存储插件是Drill中,连接到数据源的模块.一个存储插件通常会优化Drill查询的执行,提供数据的定位,命名空间下的配置和读数据要用到的格式.Drill已经内置了一些存储插件,你只需要根据你的环境配置一下就可以使用了.借助存储插件,你可以连接到各种数据源,像数据库,本地或是分布式的文件,或是Hive数据库. 你可以修改一个存储插件的默认配置X,并给一个新的唯一的名字"Y".这个新的文档就会把Y当成一个完全不同的插件,虽然它本身只是原有插件重新配置了一下.当你执行一个drill查询的时候

Stream Processing for Everyone with SQL and Apache Flink

Where did we come from? With the 0.9.0-milestone1 release, Apache Flink added an API to process relational data with SQL-like expressions called the Table API. The central concept of this API is a Table, a structured data set or stream on which relat

Apache Spark 之外的三种新兴的开源数据分析工具

在数据分析方面,影响深远的变化正在酝酿之中,而开源工具在引领许多变化.当然,你可能已熟悉这个领域的一些明星开源项目,比如 Hadoop 和 Apache Spark,不过现在出现了强烈的要求,需要全面完善数据分析生态系统的新工具.值得注意的是,许多这些工具是为了处理流数据而定制的. 物联网带来了众多传感器及其他设备,它们在生成源源不断的数据流,而物联网只是推动市场需要新型分析工具的重大趋势之一.比如需要流数据分析工具来改善药物发现,美国宇航局和搜寻外星文明研究所(SETI)甚至在开展合作,分析数

Google Dremel vs. Apache Hadoop

Naresh Kumar在介绍两者之间的区别之前,首先针对Google Dremel进行简单的描述: 什么是Google Dremel? Google Dremel是个可扩展的.交互式的即时查询系统,专注于只读嵌套(nested)数据的分析.通过集合不同层次的执行树和柱状的数据布局,他能够在几秒内完成在万亿张表上的聚合查询.系统可以扩展到成千上万的CPU上,满足Google上万用户操作PB及的数据. Apache Hadoop vs Google Dremel:两者之间的不同 Dremel是个数