解救选择困难,Hadoop在线分析处理选型

文章讲的是解救选择困难,Hadoop在线分析处理选型,数据分析市场从来都很活跃,就好像随时随地都会诞生无数的新工具新技术新框架一样,其实无非就两种,充满了大鱼吃小鱼故事的商业软件市场和开源数据处理软件。在互联网精神和开源情怀的引导下,各种专业领域的开源软件日益壮大。百花齐放的情况下,到底要如何选择呢?

  Hadoop是一个非常好的数据存储平台。在开源世界,Hadoop将人们引入了大数据时代,处理TB级别的大数据成为一种可能,但实时性能一直是Hadoop的伤痛。直到14年,Spark横空出世,通过最大利用内存处理数据的方式,大大改进了数据处理的响应时间,快速发展出一个较为完备的生态系统。联机分析处理(OLAP)通常是针对一些传统的专有平台上比较小的数据集。幸运的是,现在有很多Apache Hadoop项目已经开始实现OlAP了。

  Apache Kylin

  

  Apache Kylin,中文名麒(shen)麟(shou),是Hadoop家族中的重要成员。Apache Kylin是一个开源分布式分析引擎。针对企业使用Hadoop管理数据中现有分析工具难以水平扩展、无法处理超大规模数据等痛点产生的。最初由eBay开发贡献至开源社区,Kylin从Hive中读取源数据,使用MapReduce计算多维度的任意组合,并把预计算结果保存在HBase中。它可以支持PowerBI,Tableau和Excel或者未来可能可以支持更多工具。

 

  你可以在其上做MOLAP多维数据集处理并且支持多用户数以亿计的快速行查询。同时,Apache Kylin也提供JDBC和ODBC的驱动程序。

  Druid

  

  Druid是另一个十分强大的提供Hadoop上SQL联机分析处理的解决方案。该项目的文档说明对熟悉OLAP的DBA,数据架构师,数据工程师以及对大数据项目感兴趣的程序员来说十分简单易懂,Druid提供亚秒级别的OLAP列方向查询,并且倒排索引启用多维过滤,可以对聚合和过滤数据进行扫描。此外,Airbnb和Alibaba都在使用该项目。

  Apache Lens

  

  Apache Lens提供了统一数据分析接口。Lens削减数据分析的孤岛,通过提供一个跨多个分层数据存储的单一视图,并优化查询分析执行的环境。无缝集成Hadoop实现类似传统数据仓库的功能。它的安装速度十分快,并且可以兼容Hive,JDBC以及OLAP多维分析。此外,还有一个Apache Zepplin接口,目前并没有太多关于此接口的消息,不过似乎是个不错的主意。

  其他可供选择的工具:

  1、SnappyData(强大的SQL即时分析,内存速度极快和GemfireXD)

  2、Apache HAWQ(强大的SQL支持和Greenplum)

  HAWQ是一个Hadoop原生大规模并行SQL分析引擎,针对的是分析性应用。和其他关系型数据库类似,接受SQL,返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。

  3、Splice Machine(现已开源)

  4、Hive LLAP目前已进入OLAP领域,性能在逐步提升。

  5、Apache Phoenix

  Phoenix可以在Saiku的支持下做一些基础的OLAP工作,可以看一下Saiku的OLAP BI工具。Phoenix可以处理大数据的查询和并发问题,但是目前的Phoenix可能缺乏一些用户需要的OLAP特定工具支持。没准,Apache Calcite和Phoenix将会成为不错的OLAP工具。如果你在实践中发现有好的开源工具可以推荐,欢迎留在评论里。目前看来,似乎Apache Kylin和Druid的表现更优异。

作者:zyy

来源:IT168

原文链接:解救选择困难,Hadoop在线分析处理选型

时间: 2024-12-07 21:38:53

解救选择困难,Hadoop在线分析处理选型的相关文章

一篇文读懂19款数据分析软件,解救选择困难症!

作者介绍 欧阳辰,超过15年的软件开发和设计经验,目前就职于小米公司,负责小米广告平台的架构研发.曾为微软公司工作10年,担任高级软件开发主管.热爱架构设计和高可用性系统,特别对于大规模互联网软件的开发,具有丰富的理论知识和实践经验.个人公众号:互联居.   数据分析(Data Analytics)从来都不是一个寂寞的领域,每一个时代都赋予其新的内容.在大数据盛行之时,各种大数据分析软件如雨后春笋一般涌现出来,整个市场一片繁花似锦.欣欣向荣.本篇文章主要介绍一些常用的大数据分析软件,帮助大家望尽

让SCv2000来拯救企业存储的选择困难症

    十二星座中的天秤座,常被调侃自带"选择困难症"属性,然而仔细一想,谁还没个选择困难的时候.比如:中午吃米饭or面条.打车or坐公交.买最新款or经典款--对于企业存储采购来说,选择至关重要,考虑诸多因素还是难以定夺,如何是好? 企业存储采购人员几乎都在选择时纠结过,选择成本低的or服务范围全的?按每个用户计划or按年计划来购买存储容量?选择老牌服务商or行业新秀--各种各样的权衡因素快把采购人员逼成天秤座了-- 选择困难,多是出于对性价比的衡量.根据中桥2015年最新调研数据显

产品经理的选择困难

摘要: 在本文正式开始之前,先给大家进行一个小测试,请看下图并回答:如果是男人,你会喜欢哪一种类型的女友?如果是女人,你结婚会选择哪款婚纱? 如果在一分钟之内还没有明确并给出 在本文正式开始之前,先给大家进行一个小测试,请看下图并回答:如果是男人,你会喜欢哪一种类型的女友?如果是女人,你结婚会选择哪款婚纱? 如果在一分钟之内还没有明确并给出你的答案,那么有理由怀疑你可能有轻微的选择恐惧症.如果在半小时之内还在纠结的话,那么建议你直接找专业的医生去咨询一下关于这方面的问题(真心但愿不会). 通过这

该买 Playstation 4 还是 Xbox One?选择困难症患者专贴

class="post_content" itemprop="articleBody"> 自从 Xbox One 正式发布以来,就一直被拿来和 PS4 比较,现在距离 2 部次时代主机正式发售的日子越来越近,相信不少机迷非常期待,但每逢这些时候选择困难症总会发作,假若你还在烦恼买哪一部,就让小编帮你每个重点逐一分析-- PS4 vs. Xbox One 第一回合:游戏篇 游戏机当然主要用来玩游戏,两部主机各自有一些独占游戏,而玩家往往凭着游戏而决定买哪一部主机

云计算让中小企业不再选择困难症

中小企业曾经对于自己无法支付所需要的IT服务的担心因为云计算的出现而消失无踪,甚至就连小型酒厂也已经可以享受IT服务.IDC研究所的分析师Lan Song认为:企业为了使用终端市场的SaaS解决方案的就要做出权衡:客户通常只能接受比较通用的方案,但是向某些特定行业提供解决方案的提供商也很少.但如果这些企业转而选择定制解决方案,成本的大幅度提高显然是不划算的. 成本和的定制的选择对于用户来说是相当困难的.成立三年的葡萄酒管理系统( Wine Management Systems (WMS))的CE

专业治疗选择困难症----帮你做选择

很多时候都会遇到让人纠结的事情,比如做什么了不做什么的了.都说抛硬币很有效,并不是因为抛硬币的结果,而是在硬币抛出的那一瞬间,心中到底想要什么就已经很明显了.但是咧,不可能随身都带着一枚硬币吧.于是有了下面的这个小小的软件. 核心算法 哈,这里并不能说是核心算法吧.毕竟不是自己的.就是一个产生随机数的算法.让我们来追踪一下吧. //第一步:入口之Math.random() Math.random(); //第二步:进入random的内部 public static double random()

《Hadoop技术详解》一第1章 简介

第1章 简介 Hadoop技术详解 在过去的几年里,数据的存储.管理和处理发生了巨大的变化.各个公司存储的数据比以前更多,数据来源更加多样,数据格式也更加丰富.这不是因为我们变成了林鼠(译注:林鼠喜欢收集各种物品),而是因为我们想要创造出可以让我们进一步了解某一领域的产品.功能以及对其智能预测(这个领域可以是指用户.数据搜索.机器日志或者是某机构的任何信息).为了更好地服务其成员,各组织正在寻找新的方式来使用那些曾经被认为没有什么价值或者存储起来过于昂贵的数据.采集和存储数据只是其中的一部分工作

【PDF大放送】Spark&Hadoop Summit精选分享PDF合集

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具,锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择. Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Had

《Hadoop MapReduce性能优化》一2.1 研究Hadoop参数

2.1 研究Hadoop参数 Hadoop MapReduce性能优化 正如第1章中提到的那样,有很多因素会对Hadoop MapReduce性能产生影响.一般说来,与工作负载相关的Hadoop性能优化需要关注以下3个主要方面:系统硬件.系统软件,以及Hadoop基础设施组件的配置和调优/优化. 需要指出的是,Hadoop被归类为高扩展性解决方案,但却不足以归类为高性能集群解决方案.系统管理员可以通过各种配置选项来配置和调优Hadoop集群.性能配置参数主要关注CPU利用率.内存占用情况.磁盘I