Hadoop是数据仓库的终结者吗?

  在过去三年,Hadoop生态系统已经大范围扩展,很多主要IT供应商都推出了Hadoop连接器,以增强Hadoop的顶层架构或是供应商自己使用的Hadoop发行版。鉴于Hadoop的部署率呈指数级的增长,以及其生态系统不断地深入而广泛地发展,我们很想知道Hadoop的崛起是否会导致传统数据仓库解决方案的终结呢。

  我们也可以将这个问题放到一个更大的环境中去讨论:在何种程度上,大数据会改变传统数据分析的环境?

  数据仓库是技术和软件套件,它能够从操作系统收集数据,并将这些数据整合,并统一到中央数据库中,然后对数据仪表盘上指标进行分析、可视化和追踪关键性能处理。

  数据仓库和Hadoop之间的主要区别是:数据仓库通常部署在单个关系数据库中,而这个数据库则起到中央存储的作用。相比之下,Hadoop及其Hadoop文件系统是跨多个机器,并用来处理海量数据的,而这是任何单台机器都达不到的能力。

  此外,Hadoop生态系统包括构建在Hadoop核心之上的数据仓库层/服务,而Hadoop上层服务包括SQL(Presto)、SQL-Like(Hive)和NoSQL(Hbase)类型的数据存储。相比之下,在过去的十年中,大型数据仓库转移到使用自定义多处理器设备来扩展数据量,像Netezza(被IBM收购)和Teradata所提供的数据仓库。然而,这些设备都非常昂贵,大多数中小企业都负担不起。

  在这种背景下,我们很自然地要问:Hadoop是否是数据仓库的终结者?

  为了回答这个问题,我们需要将数据仓库技术与数据仓库部署分开来看。Hadoop(和NoSQL数据库的出现)将预示着数据仓库设备和传统数据仓库单一数据库部署的消亡。

  而在这方面就有过实例。Hadoop供应商Cloudera将其平台作为“企业数据枢纽”,这在本质上将传统数据管理解决方案的纳入了需求。ReadWrite.com在最近发表的一篇题为“为什么专有大数据技术没有希望与Hadoop竞争”的文章中也发表了类似的看法。同样地,最近一篇华尔街日报文章描述了Hadoop如何挑战甲骨文和Teradata。

  Hadoop或NoSQL生态系统仍将继续发展。很多大数据环境开始选择NoSQL、SQL甚至是NewSQL数据仓库的混合方法。此外,MapReduce并行处理引擎也有变化和改进,例如Apache的Spark项目。虽然这个故事还远远没有结束,但可以说,传统的单一服务器关系型数据库或数据库设备并不是大数据或数据仓储的未来。

  另一方面,数据仓库技术(包括提取—转换—和—加载、三维建模和商业智能)将会应用到新的Hadoop/NoSQL环境。此外,这些技术也将变身来支持更多的混合环境。主要原则是因为并不是所有数据都是平等的,所以IT经理们应该选择数据存储和访问机制来适应数据的使用。混合环境将包括关键价值存储、关系型数据库、图形存储、文档存储、柱状存储、XML数据库、元数据目录等等。

  正如你所看到的,这并不是一个简单的问题,也不可能简单地得出一个答案。然而,一般情况下,虽然大数据在未来五年内将会改变数据仓库的部署,但它不会导致数据仓库的概念和做法过时。

  对于向数据仓库投入巨资的联邦政府这意味着什么呢?

  首先,当现有数据仓库的容量不够时,数据仓库将被转移到基于Hadoop、多机器或云托管的解决方案。其次,企业并不会选择“放之四海而皆准”的做法,而会将目光转向适合其企业内部数据容量的混合存储方法。

时间: 2024-09-23 03:40:02

Hadoop是数据仓库的终结者吗?的相关文章

基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持

天作之合Hadoop与数据仓库的完美结合

似乎所有人嘴边都挂着"大数据"这个词.围绕大数据这个主题开展的讨论几乎已经完全压倒了传统http://www.aliyun.com/zixun/aggregation/8302.html">数据仓库的风头.某些大数据狂热者甚至大胆预测,在不久的将来,所有企业数据都将由一个基于 Apache Hadoop 的系统托管,企业数据仓库 (EDW) 终将消亡. 无论如何,传统数据仓库架构仍在不断发展演化,这一点不容置疑.一年来,我一直在撰写相关的文章和博客,但它真的会消亡吗?我

hive (基于hadoop的数据仓库)

1.简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能. 与传统关系数据库相比的优势是:能够处理海量数据. 劣势是:它只提供查询功能,不能增.删.改.涉及到分布式计算的任务分发,查询时间在分钟级,不能当实时工具用. 运行机理:将sql语句转换为MapReduce任务,让Hadoop处理. 2.查询语句 hive //此命令打开hive的CLI(Command Line Interface). show databases;//

Hadoop+数据仓库到底是梦幻组合还是命中的宿敌?

想一想数据管理世界中的那个伟大的存在–数据仓库吧.在过去的二十年中,尽管其他的系统和软件在许许多多的迭代.变革中演进,甚至完全被新模型所抛弃,数据仓库这个老骨干却安然屹立.她可能会偷偷地给自己的面颊,皱纹整容,也可能会激起一些不那么令人深刻的模仿,但是没有什么能长期的吸引她的注意力. 直到现在.自从Hadoop出现在舞台上之后,一直有人嘀咕说,这个闪亮的新星正在为一些最好的数据管理角色提供服务–这些角色就是,在几年前,数据仓库已稳操胜券. 但是现在真的到了数据仓库要退休的时候了吗?Hadoop甚

Hadoop如何通过对数据仓库进行补充来创建强大的聚合平台

Apache Hadoop 是新一代数据仓库的基础.各公司纷纷采用 Hadoop 作为其当前仓储架构(如提取/转换/加载 (ETL).数据暂存和非结构化内容预处理)中的战略角色.我也将 Hadoop 视为云中新一代大规模并行数据仓库中的一项关键技术,Hadoop 对当今的仓储技术和低延迟流平台进行了有效补充. 在 IBM,我们期待在未来的几年里,Hadoop 和数据仓库技术能够更加完善地相互融合并汇成一个全新的平台范例:Hadoop 数据仓库.Hadoop 没有展示陈旧的传统仓储架构:相反,它将

一步一步学习大数据:Hadoop生态系统与场景

Hadoop概要 到底是业务推动了技术的发展,还是技术推动了业务的发展,这个话题放在什么时候都会惹来一些争议. 随着互联网以及物联网的蓬勃发展,我们进入了大数据时代.IDC预测,到2020年,全球会有44ZB的数据量.传统存储和技术架构无法满足需求.在2013年出版的<大数据时代>一书中,定义了大数据的5V特点:Volume(大量).Velocity(高速).Variety(多样).Value(低价值密度).Veracity(真实性). 当我们把时间往回看10年,来到了2003年,这一年Goo

Hadoop会取代数仓吗?看硅谷专家怎么说

一想数据管理世界中的那个伟大的存在–数据仓库吧.在过去的二十年中,尽管其他的系统和软件在许许多多的迭代.变革中演进,甚至完全被新模型所抛弃,数据仓库这个老骨干却安然屹立.她可能会偷偷地给自己的面颊,皱纹整容,也可能会激起一些不那么令人深刻的模仿,但是没有什么能长期的吸引她的注意力. 直到现在.自从Hadoop出现在舞台上之后,一直有人嘀咕说,这个闪亮的新星正在为一些最好的数据管理角色提供服务–这些角色就是,在几年前,数据仓库已稳操胜券. 但是现在真的到了数据仓库要退休的时候了吗?Hadoop甚至

Hadoop - 任务调度系统比较

1.概述 在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如:作业的依赖调度,任 务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂.那么,在没有条件和精力去开发一套调度系统的情况下,我们去选择一款第三 方开源的调度系统,来尽量减轻和降低我们日常工作的复杂度,也是极好的.今天,笔者给大家比较几种常见的调度系统,供大家去选择. 2.内容 2.1 Oozie Oozie目前是托管在Apache基金会的,开源.在之

基于Hadoop版本Tachyon:吞吐量要比HDFS高300多倍

Hadoop足够快吗?美国加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon.AMPLab从底层重建了Hadoop平台,"没有最快,只有更快". AMPLab在大数据领域最知名的产品是Spark,它是一个内存中并行处理的框架,Spark的创造者声称:使用Shark运行并行处理Job速度要比MapReduce快100倍.又因为Spark是在内存运行,所以Shark可与Druid或者SAP's HANA系统一较高下.Spark也为ClearStor