Hadoop集群让数据分析平台化

咨询师Wayne Eckerson说,Hadoop提供了一个平台,为单独数据分析和商业用户建立起的spreadmart(报表集市)提供更为方便的控制,同时还让他们有地方进行自助服务分析。

Spreadmart是spreadsheet data mart的简称,在商务智能领域,指多个个人和团队创建的各不相同的电子数据表格。因为数据不一致,所以给业务带来很大的麻烦。

几十年来,所有数据分析人员都使用自助服务分析工具来访问和操纵数据,确定趋势和反常现象,展示商务智能的洞察力等。虽然在这些年,工具的类型多有变化,但结果几乎都是一样的:spreadmart或数据影子系统的建立,依托于独特的规则,度量标准和定义。

大多数大型企业都有数以万计的spreadmart,每个都是为了在某一时刻应对重大的或局部性的问题而存在。虽然对于个体商业单元十分有价值,但 spreadmart快把CEO和CFO逼疯了。他们提出一个简单的问题,比如,“我们有多少客户?”,他们从spreadmart得到相互矛盾的答案, 因为数据分析师和业务部门负责人援引的数据不一致。spreadmart现象已经使数千IT经理和企业高管制定了数据仓库规则,以此恢复数据的一致性和企 业秩序。

这并没有阻止人们将数据存在着各种spreadmart工具中,从Microsoft Excel和Access,到自服务的BI软件等,在高端层面,使用SAS和SPSS软件进行统计分析和数据挖掘。但是有一项新技术,可以帮助企业改善 spreadmart的副作用:Hadoop集群。

这个开源软件是免费的,运行它所需的硬件也十分便宜,分析师不必了解SQL或数据建模技术就可以使用它。他们可以转储数据到Hadoop,然后使用高级语 言,如Hive或Pig,或用Hadoop上兼容的BI和数据集成工具来访问,处理和分析数据。虽然有许多理由来实现Hadoop,但其中一个主要的理由 是在无需IT干预的情况下,培养自我服务的数据分析,Hadoop正迅速成为成熟分析师和部门负责人的首选spreadmart平台。

Hadoop中实现免管理

到现在为止,已经出现了以最小通信在 Hadoop的环境里实现数据管理的方法。数据质量,数据一致性,适当规模和元数据管理这些术语还没有进入Hadoop的词典。因为Hadoop还是新鲜 的事物,大部分公司仍在评估其对生产设施的支持能力。这也因为它的主要用户,业务分析人员,从来没有过分关注过企业数据治理和一致性,他们不需要高质量的 数据就可做出评估和分析趋势。

所以,如果Hadoop是一个对所有自助服务免费的系统,分析人员和业务用户就可以在不需要费力管理的情况下实现转储和访问数据,是什么保证被热炒的 Hadoop数据池不会变成一圈涟漪,换句话说,Hadoop将来会进一步使spreadmart数量激增或有助于spreadmart的巩固么?

问题的答案是:两者都会。

公司的确可以使用Hadoop作为他们的所有数据的低成本存储库,也就是说,数据池。因此,在Hadoop系统为企业中的每一个分析师和业务单位提供了一 站式服务,而不是在多个应用程序和系统中搜寻数据,分析人员可以通过挖掘数据池得到他们所需要的一切。这使得创建spreadmart变得更容易。

但是,这并不是采用在各种PC和文件服务器增加大量免控spreadmart的方式,而是由Hadoop提供了一种在单独位置加强数据分析能力的可能性: 一个巨大的分析沙箱,提供了更大规模的经济以及可观的成本节约。它使IT和业务经理可以实实在在的看到分析人员在做什么。一种考量spreadmart的 方式就是把spreadmart视为业务需求的实例化。隐藏的spreadmart使 IT管理人员很难分辨出对业务十分重要的方面有哪些,从数据仓库中找出满足企业报告要求的数据也会十分困难。通过将数据分析集中在数据湖中,Hadoop 使得上述这些问题对IT部门以及商业伙伴来说变得十分容易,此外还主动满足了他们的需求。

数据分析新星

然而,Hadoop不仅仅是保持spreadmart集合的容器而已。他是一个可扩展的,灵活的数据处理平台,能够满足大多数企业的数据分析需求。这就像数据处理中瑞士军刀:是几乎可以做任何事情的通用工具,虽然不是最优的(至少在目前还不是)。

Hadoop可存储企业所有的数据,而不仅仅只是一个子集而已,就像数据仓库一样。而伴随着YARN 资源管理,,去年秋季推出的Hadoop 2的一部分,其已经可以支持各种数据和分析处理应用,从实时的SQL查询系统,图形到内存计算和流式分析引擎等。虽然Hadoop的2需要时间来成熟,但 未来十分明确:企业可以将其数据存储在Hadoop集群并在那里进行处理。

这是具有革命性的。精明的IT和数据仓库管理者会很快意识到这将带来的影响。随着Hadoop 2系统的出现,其未来的分析架构将围绕Hadoop,而不是以前的关系型数据库。进一步讲,现有的分析系统将成为专门的数据库,并最终消失,因为 Hadoop逐渐成熟后会将它们的功能合并。

至少,这就是愿景。在大部分企业改变其当前的分析生态系统,使其融入到Hadoop2数据池之前,还需要大量的开发和实验工作。现有的分析系统还有很长的 生命期:即使它们的价值已经完全贬值,但嵌入式性质和企业的惯性使得企业很难抛弃他们。Hadoop也可能永远不会实现它的承诺,或另外一种技术在将来会 取代它的分析地位。

但在Hadoop的世界,这样的事在时刻发生着。如今,Hadoop正迅速成为事实上的企业数据存储库,并优先于spreadmart平台(或分析沙箱)。不久,它可能是成为用于构建分析应用程序和大多数分析生态系统的主要平台。

【TechTarget中国原创内容,版权所有,授权中国大数据发布】

时间: 2024-07-30 05:20:53

Hadoop集群让数据分析平台化的相关文章

Hadoop集群让大数据分析平台化

咨询师Wayne Eckerson说,Hadoop提供了一个平台,机房动力环境监控为单独数据分析和商业用户建立起的spreadmart(报表集市)提供更为方便的控制,同时还让他们有地方进行自助服务分析. Spreadmart是spreadsheet data mart的简称,在商务智能领域,指多个个人和团队创建的各不相同的电子数据表格.因为数据不一致,所以给业务带来很大的麻烦. 几十年来,所有数据分析人员都使用自助服务分析工具来访问和操纵数据,确定趋势和反常现象,展示商务智能的洞察力等.虽然在这

R语言为Hadoop集群数据统计分析带来革命性变化

R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力.特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上. R语言是主要用于统计分析.绘图的语言和操作环境.R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发.(也因此称为R)现在由"R开发核心团队"负责开发.R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用 S语言编写的代码都可以不作修改的在R环境下运行.R的语法是来自Scheme. R的源

Hadoop集群容易被攻击的几个场景

本文讲的是Hadoop集群容易被攻击的几个场景, 前言 Hadoop是成为大数据分析平台的主流产品,其安全性一直深受诟病,而针对安全的各种配置也都比较复杂,因此我们在一些场景的配置下进行安全测试,看看究竟哪些场景可能会被攻击. 1.HDFS脆弱性测试 1.1.用户冒充,访问任意文件操作 受影响的环境:在hdfs-core.xml文件中配置,Simple模式,dfs.permissions.enabled开启或关闭均可. 方法:利用客户机1远程进行操作,如果当前客户机1和2分别建立不同密码的用户u

为Hadoop集群选择合适的硬件配置

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也将学到Hadoop管理员应该考虑到各种

Hadoop集群中利用HBase更加高效地进行查询和优化海量数据

本文将帮助读者在大数据云计算 Hadoop 集群应用中利用 HBase 更加高效.直观.便捷地进行存储,查询和优化海量数据. 2006 年 11 月,Google 发表了一篇名为< BigTable >论文 , 2007 年 2 月,Hadoop 的开发人员对其进行实现并命名为 HBase. HBase 是基于 Hadoop 之上的一种新型的基于列存储的开源数据存储架构,用于解决大数据问题,是 Hadoop 的分布式数据库. HBase 现在已经比较成熟,最新的稳定版本是 0.94.x.HBa

《Hadoop集群与安全》一第1章 构建Hadoop集群

第1章 构建Hadoop集群 Hadoop是一款免费开源的分布式存储和计算平台.在构建该平台后,用户可以使用商用硬件中的集群来存储和处理大量数据.在过去的数年中,Hadoop已经成为大数据项目的事实标准.本章会讲述以下内容:选择Hadoop集群硬件.Hadoop发行版.为Hadoop集群选择操作系统.本章会讲解为Hadoop集群选择和配置硬件的概念,还会介绍不同的Hadoop发行版(其数量每年都在增加)以及它们之间的异同点.无论读者是Hadoop管理员还是架构师,构建集群的第一步是确定使用硬件的

一脸懵逼学习基于CentOs的Hadoop集群安装与配置(三台机器跑集群)

1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构.  注意:HADOOP的核心组件有: 1)HDFS(分布式文件系统) 2)YARN(运算资源调度系统) 3)MAPREDUCE(分布式运算编程框架)       Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode

hadoop 集群常见错误解决办法

hadoop 集群常见错误解决办法: (一)启动hadoop集群时易出现的错误: 1.   错误现象:java.net.NoRouteToHostException: No route to host.    原因:master服务器上的防火墙没有关闭.    解决方法: 在master上关闭防火墙: chkconfig iptables off. 2.    错误现象:org.apache.hadoop.ipc.RPC: Server at JMN/10.22.1.203:9000 not a

Hadoop-2.8.0集群搭建、hadoop源码编译和安装、host配置、ssh免密登录、hadoop配置文件中的参数配置参数总结、hadoop集群测试,安装过程中的常见错误

25.集群搭建 25.1 HADOOP集群搭建 25.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager 25.1.2服务器准备 本案例使用虚拟机服务器来搭建HADOOP集群,所用软件及版本: ü Vmware 11.