Impala简介(整理)

        一、定义(来自百度百科)

        Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

        二、Impala组成

        1、客户端:包括JDBC、ODBC、Hue、Impala Shell等,用于执行查询或完成管理任务;

        2、Hive Metastore:存储可用于Impala数据的信息,包括可用数据库及其结构。当执行Impala Sql语句进行schema对象的创建、修改及删除,或加载数据到表中等操作时,相关元数据的变化,通过单独的catalog服务自动广播到所有Impala节点;

        3、Cloudera Impala(Impalad进程):运行于数据节点的Impala程序,用于协调和执行查询。每一个Impala的实例可以获取、解析以及协调Impala客户端传来的查询。查询是被分布到各Impala节点间,这些节点作为workers,并行执行查询片段;

        4、HDFS、HBase:数据的实际存储位置。

        三、Impala查询执处理过程

        1、用户程序通过JDBC、ODBC、Impala Shell等Impala 客户端发送Sql语句给Impala;

        2、用户程序连接到集群中任意Impalad进程,这一进程作为整个查询的协调器;

        3、Impala解析、分析查询,确定哪些任务由集群中哪一Impalad实例执行,并生成最优执行计划;

        4、Impalad实例访问对应HDFS、HBase服务,获取数据;

        5、每一个Impalad实例将数据返回给协调器Impalad,由其发送结果给客户端。

        四、优点(来自百度百科)

        1、Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。

        2、省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。

        3、Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式,而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶,因此可做更多的查询优化,从而省掉不必要的shuffle、sort等开销。

        4、通过使用LLVM来统一编译运行时代码,避免了为支持通用编译而带来的不必要开销。

        5、用C++实现,做了很多有针对性的硬件优化,例如使用SSE指令。

        6、使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。

时间: 2024-09-09 03:57:17

Impala简介(整理)的相关文章

Cloudera 数据分析师培训:Pig、Hive和 Impala(CCA159)

Cloudera 数据分析师培训:Pig.Hive和 Impala 通过 Cloudera 公司的 Apache Hadoop 培训将您的知识提升到一个新的水平. Cloudera 大学提供的为期四天的数据分析培训课程专注于 Apache Pig. Hive 和 Cloudera Impala,将教会您如何将传统的数据分析和商业智能技术应用到大数据领域.Cloudera 为数据专业人员提供了基于 SQL 和其它熟悉的脚本编程语言的工具,用来访问.操作.转换和分析复杂数据集. "通过 Cloude

基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持

Sql注入原理简介_动力节点Java学院整理

一.什么是sql注入呢? 所谓SQL注入,就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串,最终达到欺骗服务器执行恶意的SQL命令,比如先前的很多影视网站泄露VIP会员密码大多就是通过WEB表单递交查询字符暴出的,这类表单特别容易受到SQL注入式攻击.当应用程序使用输入内容来构造动态sql语句以访问数据库时,会发生sql注入攻击.如果代码使用存储过程,而这些存储过程作为包含未筛选的用户输入的字符串来传递,也会发生sql注入. 黑客通过SQL注入攻击可以拿到网站数据库的访问

整理的9个实用的PHP库简介和下载

1. ReCAPTCHA The reCAPTCHA 库让你可以为网站创建高级的 CAPTCHA 系统,这个系统其实是用来生成验证信息的,甚至包括语音验证.当然还有 reCAPTCHA 服务可以使用,其提供易用的免费 API,值得在你的网站试试. 下载 ReCAPTCHA 获得 API Key 文档 2. Akismet Akismet 是个供小站点使用的免费服务,用来修改规范将加入数据库的评论(防止恶意评论).这个库一直在改善. 详细参考 Akismet 介绍 3. Services_JSON

javascript学习笔记整理(概述、变量、数据类型简介)_基础知识

A.概述1.输出工具: document.write()---可以是html alert()---字符串 prompt(text,defaultText) text---可选.要在对话框中显示的纯文本(而不是 HTML 格式的文本). defaultText---可选.默认的输入文本. 2.js的放置 a.可以再HTML的任何位置放置 b.但他是一个整体,相互影响 c.在超链接和重定向的位置 <a href="javascript:alert();"></a>

整理的9个实用的PHP库简介和下载_php技巧

1. ReCAPTCHA The reCAPTCHA 库让你可以为网站创建高级的 CAPTCHA 系统,这个系统其实是用来生成验证信息的,甚至包括语音验证.当然还有 reCAPTCHA 服务可以使用,其提供易用的免费 API,值得在你的网站试试. 下载 ReCAPTCHA | 获得 API Key | 文档 2. Akismet Akismet 是个供小站点使用的免费服务,用来修改规范将加入数据库的评论(防止恶意评论).这个库一直在改善. 详细参考 Akismet 介绍 3. Services_

NewSQL数据库简介

NewSQL数据库简介 NewSQL的未来 原创 2016-10-20 黄编者按:黄东旭,PingCAP 联合创始人.CTO,是很多人仰望的国内分布式存储领域(NewSQL) 技术大神级别的人物.我们请黄东旭来聊聊他眼中的NewSQL,有需要交流的内容,欢迎留言. 最近数据库圈的一个比较大的事件是 NoSQL 先驱之一的 RethinkDB 的关张大吉,RethinkDB这个事情本身我就不多做评论了,现在这个时机去分析不免有马后炮的嫌疑,今天我想借着这个引子谈谈新型数据库的未来.   纵观过去十

Work Like Alibaba系列分享资料整理(含PDF、视频、文字):持续更新中

阿里巴巴逐年增加的双11营业额和财年集团收入的背后隐藏着怎样的秘密?这18年来,它又是用怎样的工作方法.工作形式打造出高效.创新的企业帝国.带你全方位了解阿里的开发.产品.运营.销售是怎样协同.工作,我们还会邀请企业来实战分享,他们怎样Work Like Alibaba?取得了怎样的成果? Work like alibaba通过线下沙龙.线上直播.内容输出三个维度,携手阿里云的典型企业用户,联合阿里云.钉钉阿里产品,将阿里的前沿产品技术理念.敏捷研发模式.智能运维方法.智能办公.移动办公等渐渐渗

IOS开发--常用工具类收集整理(Objective-C)(持续更新)

 前言:整理和收集了IOS项目开发常用的工具类,最后也给出了源码下载链接. 这些可复用的工具,一定会给你实际项目开发工作锦上添花,会给你带来大大的工作效率. 重复造轮子的事情,除却自我多练习编码之外,就不要傻傻的重复造轮子了,还是提高工作效率,早点完成工作早点回家陪老婆孩子. 所以下面备份的常用工具类一定是你需要的. 前提:你有一定的开发经验,知道它们在开发的什么地方需要,你都不知道用在哪里,那你需要个毛啊,还是好好另外学好基础吧.少儿不宜,请离开哦. 插件目录列表:(持续更新和添加) 1.UI