Hadoop - Kylin On OLAP

1.概述

  Apache Kylin是一个开源的分布式分析引擎,提供SQL接口并且用于OLAP业务于Hadoop的大数据集上,该项目由eBay贡献于Apache。

2.What is Kylin

  在使用一种模型,我们得知道她是干什么的,那么首先来看看Kylin的特性,其内容如下所示:

  • 可扩展超快的OLAP引擎:Kylin是为减少在Hadoop上百亿级别数据查询延迟而设计的。
  • Hadoop ANSI SQL接口:Kylin为Hadoop提供标准的SQL,其支持大部分查询功能。
  • 出色的交互式查询能力:通过Kylin,使用者可以于Hadoop数据进行亚秒级交互,在同样的数据集上提供比Hive更好的性能。
  • 多维度Cube:用户能够在Kylin里为百亿以上的数据集定义数据模型并构建Cube。
  • 和BI工具无缝整合:Kylin提供与BI工具,如商业化的Tableau。另外,根据官方提供的信息也在后续逐步提供对其他工具的支持。
  • 其他特性:
    • 对Job的管理和监控
    • 压缩和编码的支持
    • 增量更新Cube
    • 利用HBase Coprocessor去查询
    • 基于HyperLogLog的Distinct Count近似算法
    • 友好的Web界面用于管理、监控和使用Cube
    • 项目及Cube级别的访问控制安全
    • 支持LDAP

3.ECOSYSTEM

  Kylin有其自己的生态圈,如下图所示:

  从上图中,我们可以看到,Kylin的核心包含:Kylin
OLAP引擎基础框架,Metadata引擎,查询引擎,Job引擎以及存储引擎等等,同时还包括REST服务器以响应客户端请求。另外,还扩展支持额外
功能和特性的插件,同时整合与调度系统、ETL、监控等生命周期管理系统。在Kylin核心之上扩展的第三方用户界面,ODBC和JDBC驱动用以支持不
同的工具和产品,如:Tableau。

4.Architecture

  Kylin的架构概述图如下所示:

  图中的执行流程很清楚,客户端(REST
API或JDBC/ODBC)发送SQL请求,将其交给Kylin的执行引擎去处理,Kylin去拉去对应的数据来做处理,并返回处理结果,这里
Kylin需要依赖HBase。复杂的事情,Kylin的引擎都给我们处理了,我们只需要负责去编写我们的业务SQL。

5.How TO Works

  在Kylin中,我们可以处理三维的业务查询,如下图所示:

  在明白了业务处理方向,其生态群和架构。我们要如何去集成该系统到Hadoop集群?关于Kylin的集成过程是比较方便的,Kylin需要Hadoop、Hive、HBase、JDK,另外,对版本也是有要求的。本版要求如下:

  • Hadoop:2.4 - 2.7
  • Hive:0.13 - 0.14
  • HBase:0.98(这里若是选择Kylin-1.2,需要用到HBase-1.1+以上)
  • JDK1.7+

  另外,安装Kylin步骤也是比较简单的,步骤如下所示:

  • 下载最新的安装包,地址如下:[Kylin.tar.gz
  • 设置KYLIN_HOME环境变量
  • 确保用户有权限去访问Hadoop、Hive和HBase,如果不确定的话,我们可以在安装包的bin目录下运行check-env.sh脚本,如果我们有问题的话,她会打印详细的信息。
  • 最后,我们可以通过kylin.sh start去启动Kylin,或者使用kylin.sh stop去停止Kylin

  在Kylin启动之后,我们可以通过输入http://node_hostname:7070/kylin去访问Kylin,登录默认用户名和密码为:ADMIN/KYLIN

  预览截图如下所示:

  另外,我们可以通过JDBC去操作,代码片段如下所示:

Driver driver = (Driver) Class.forName("org.apache.kylin.jdbc.Driver").newInstance();
Properties info = new Properties();
info.put("user", "ADMIN");
info.put("password", "KYLIN");
Connection conn = driver.connect("jdbc:kylin://dn1:7070/kylin_project_name", info);
Statement state = conn.createStatement();
ResultSet resultSet = state.executeQuery("select * from test_table");
while (resultSet.next()) {
  assertEquals("foo", resultSet.getString(1));
  assertEquals("bar", resultSet.getString(2));
  assertEquals("tool", resultSet.getString(3));
}

6.总结

  在使用Kylin时,我们有必要去首先熟悉其架构,这能让我们更加熟悉其应用场景和业务场景。在集成和使用的过程当中会遇到一些问题,我们可以分析其异常日志,然后利用搜索引擎得到解决。关于Kylin的详细使用,大家可以参考官方撰写的文档。

7.结束语

  这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!

时间: 2024-10-01 15:29:46

Hadoop - Kylin On OLAP的相关文章

Hadoop - Kylin On OLAP1

1.概述 Apache Kylin是一个开源的分布式分析引擎,提供SQL接口并且用于OLAP业务于Hadoop的大数据集上,该项目由eBay贡献于Apache. 2.What is Kylin 在使用一种模型,我们得知道她是干什么的,那么首先来看看Kylin的特性,其内容如下所示: 可扩展超快的OLAP引擎:Kylin是为减少在Hadoop上百亿级别数据查询延迟而设计的. Hadoop ANSI SQL接口:Kylin为Hadoop提供标准的SQL,其支持大部分查询功能. 出色的交互式查询能力:

Apache Kylin:基于Hadoop的OLAP引擎

传统上,Hadoop(包括MapReduce,Pig以及Hive)通常用于外部私有OLAP Cube引擎准备数据.如今,Zaloni的客户基于Apache Kylin的OLAP技术实现了实时查询的能力,这些Cube的事实表包含了400亿条以上的原始数据.我们正在帮助客户统一归集来自于多个独立系统的账单数据,并构建OLAP Cube以支持实时分析,这是以前系统所无法实现的.现在,Hadoop集群都可以做到了. 基于Hadoop的分析演化 Hadoop已经从通用计算能力(MapReduce)的分布式

Hadoop 生态系统

1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列.涉及的内容有以下几点: 分布式文件系统 分布式编程模型 NoSQL 数据库 SQL-On-Hadoop 数据采集 编程服务中间件 调度系统 系统部署 数据可视化 2.内容 2.1 分布式文件系统 2.1.1 Apache HDFS 在分布式文件系统当中,首先为

Apache Kylin权威指南2.6 SQL参考

2.6 SQL参考 Apache Kylin支持标准SQL作为查询语言,但是SQL有很多变体,Kylin支持的只是SQL所有变体中的一个子集,并不是支持所有现存的SQL语句和语法.用户在使用Kylin之前,需要对Kylin所支持的SQL有一个了解,以避免走弯路. 首先,Kylin作为OLAP引擎,只支持查询,而不支持其他操作,如插入.更新等,即所有的SQL都必须是SELECT语句,否则Kylin会报错. 第二,查询Kylin中SQL语句的表名.列名.度量.连接关系时,需要至少跟一个Cube的模型

为大数据带来交互式的BI

基于Hadoop的SQL一直在被持续地改进,但是一个查询要等几分钟到几小时还是非常得正常.在这篇博文里,我们将会介绍开源的分布式分析引擎Apache Kylin.重点介绍它是如何以数量级加速大数据查询,以及在2.0版里面为交互式BI所提供的新特性,包括对雪花模型的支持和流式建立数据立方. Apache Kylin是什么? Kylin是一个在Hadoop上的OLAP引擎.如图1所示,Kylin位于Hadoop之上,向上层的应用提供了基于标准SQL接口的关系型数据. 图1 Apache Kylin的

揭秘即将亮相 HadoopCon 2016 的大数据新星

根据IDC研究显示,大数据解决方案将在未来四年中,帮助全球企业分享大约1.6万亿美元新增收入的数据红利.在大数据产业发展中,以Hadoop为代表的开源大数据生态成为大数据和云计算的重要技术支撑,有效推动了开源社区的用户和贡献者,带动了技术进步与商业发展. 开源大数据生态快速发展,Hadoop已经不是一个大数据软件,而成为大数据平台,Hadoop的生态圈日益壮大.其中,Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数

Kylin-web上的数据分析

Kylin Web Interface Supported Browsers Windows: Google Chrome, FireFox Mac: Google Chrome, FireFox, Safari 1. Access & Login Host to access: http://hostname:7070 Login with username/password: ADMIN/KYLIN 2. Sync Hive Table into Kylin Although Kylin w

Kylin —— 来自 eBay 的 OLAP 分析引擎

Kylin 是一个开源的分布式的 OLAP 分析引擎,来自 eBay 公司开发,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 级别的数据量. 文章转载自 开源中国社区 [http://www.oschina.net]

Kylin-实践OLAP

OLAP的历史与基本概念   OLAP全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案.典型的OLAP应用场景包括销售.市场.管理等商务报表,预算决算,经济报表等等. 最早的OLAP查询工具是发布于1970年的Express,然而完整的OLAP概念是在1993年由关系数据库之父EdgarF.Codd 提出,伴随而来的是著名的"twelvelaws of online analytical processing". 1998年微软发布MicrosoftAnalysis Ser