天作之合Hadoop与数据仓库的完美结合

似乎所有人嘴边都挂着“大数据”这个词。围绕大数据这个主题开展的讨论几乎已经完全压倒了传统">数据仓库的风头。某些大数据狂热者甚至大胆预测,在不久的将来,所有企业数据都将由一个基于 Apache Hadoop 的系统托管,企业数据仓库 (EDW) 终将消亡。

无论如何,传统数据仓库架构仍在不断发展演化,这一点不容置疑。一年来,我一直在撰写相关的文章和博客,但它真的会消亡吗?我认为几率很小。实际上,尽管所有人都在讨论某种技术或者架构可能会胜过另一种技术或架构,但 IBM 有着不同的观点。

在 IBM,我们更倾向于从“Hadoop 与数据仓库密切结合”这个角度来探讨问题,两者可以说是天作之合。试想一下,对于采用传统数据仓库的企业而言,大数据带来的机会就是使之能够利用过去无法通过传统仓库架构利用的数据。
但传统数据仓库为什么不能承担起这个责任?原因是多方面的。首先,数据仓库的传统架构方式采用业务系统中的结构化数据,用它们来分析有关业务的方方面面。对这些数据进行清理、建模、分布、治理和维护,以便执行历史分析。无论是从结构方面考虑,还是从数据摄取速率方面考虑,我们在数据仓库中存储的数据都是可预测的。

相比之下,大数据是不可预测的。大数据的结构多种多样,对于 EDW 来说数量过于庞大。尤其要考虑的是,我们更习惯于浏览大量数据来查找真正需要的信息。不久之后可能又会决定丢弃这些数据,在某些情况下,这些数据的保存期限可能会更短。如果我们决定保留所有这些数据,则需要使用比 EDW 更经济的解决方案来存储非结构化数据,以便将来使用这些数据进行历史分析(这也是将 Hadoop 与数据仓库结合使用的另一个论据)。

大数据给许多客户带来了新的机遇,Hadoop 如今则为我们提供了运用新数据来源,使分析更加智慧的能力。但这个新的疆界与传统数据仓库架构形成的疆界是互为补充的关系,而非一者取代另一者。我们仍然要提供所有业务领域(财务、营销、销售、客服等)的传统分析,这些分析不可能迅速被淘汰。但是,需要认清这样一个事实:我们应该拓展分析菜单,使之包含提供更多洞察的新来源,以及允许我们实现过去不可能实现的目标(例如情绪分析)的新工具。

我相信,大数据将成为 EDW 架构改革的主要推动力之一,但绝非独一无二。设备的持续增长、对于价值实现速度的更高要求以及对于我们的解决方案中的敏捷性甚至是简单性的要求都将在这样的改革中起到重要作用。

请思考一下:敏捷性和简单性?这绝不是我们在构造企业数据仓库时频繁提到的字眼!然而,事实显而易见。许多大型 EDW 项目都无法发挥全部潜力,因为它们过于复杂,敏捷性远远低于企业的预期。另外一个事实是:切实利用分析来推动决策的企业业绩更好。这些企业的复合年增占率 (CAGR) 比其他企业高 49%,利润增长可达到其他企业的 20 倍,投资回报率也要高 30%。毫无疑问,大多数企业都在竭力实现整个目标。

图字:
Revenue growth 5 year cagr(2004-2008):收入增长 5 年 CAGR(2004 至 2008)
profit growth 5 year cagr(2004-2008):利润增长 5 年 CAGR(2004 至 2008)
return on ivested capital 5 year average(2004-2008):资本投资回报率 5 年 平均值(2004 至 2008)
超过 49% 超过 20 倍 超过 30%
Finance organizations with business insights:具备业务洞察的财务机构
all other enterprises:所有其他企业

建立这种协调关系的秘诀就是深刻理解当前具有的分析类型和未来的需求。过去,我们对于 EDW 的构想就是一种繁荣昌盛的生态系统。如今,我们已经从采用专门提供企业数据的架构转变为采用提供企业数据和智慧分析的架构。

想想所有类型的数据和所有类型的分析。这就是如今的智慧分析!

我们已经取得了长足的进展。让我们继续前进!

时间: 2024-09-23 03:40:09

天作之合Hadoop与数据仓库的完美结合的相关文章

基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持

hive (基于hadoop的数据仓库)

1.简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能. 与传统关系数据库相比的优势是:能够处理海量数据. 劣势是:它只提供查询功能,不能增.删.改.涉及到分布式计算的任务分发,查询时间在分钟级,不能当实时工具用. 运行机理:将sql语句转换为MapReduce任务,让Hadoop处理. 2.查询语句 hive //此命令打开hive的CLI(Command Line Interface). show databases;//

Hadoop是数据仓库的终结者吗?

在过去三年,Hadoop生态系统已经大范围扩展,很多主要IT供应商都推出了Hadoop连接器,以增强Hadoop的顶层架构或是供应商自己使用的Hadoop发行版.鉴于Hadoop的部署率呈指数级的增长,以及其生态系统不断地深入而广泛地发展,我们很想知道Hadoop的崛起是否会导致传统数据仓库解决方案的终结呢. 我们也可以将这个问题放到一个更大的环境中去讨论:在何种程度上,大数据会改变传统数据分析的环境? 数据仓库是技术和软件套件,它能够从操作系统收集数据,并将这些数据整合,并统一到中央数据库中,

Hadoop+数据仓库到底是梦幻组合还是命中的宿敌?

想一想数据管理世界中的那个伟大的存在–数据仓库吧.在过去的二十年中,尽管其他的系统和软件在许许多多的迭代.变革中演进,甚至完全被新模型所抛弃,数据仓库这个老骨干却安然屹立.她可能会偷偷地给自己的面颊,皱纹整容,也可能会激起一些不那么令人深刻的模仿,但是没有什么能长期的吸引她的注意力. 直到现在.自从Hadoop出现在舞台上之后,一直有人嘀咕说,这个闪亮的新星正在为一些最好的数据管理角色提供服务–这些角色就是,在几年前,数据仓库已稳操胜券. 但是现在真的到了数据仓库要退休的时候了吗?Hadoop甚

Hadoop如何通过对数据仓库进行补充来创建强大的聚合平台

Apache Hadoop 是新一代数据仓库的基础.各公司纷纷采用 Hadoop 作为其当前仓储架构(如提取/转换/加载 (ETL).数据暂存和非结构化内容预处理)中的战略角色.我也将 Hadoop 视为云中新一代大规模并行数据仓库中的一项关键技术,Hadoop 对当今的仓储技术和低延迟流平台进行了有效补充. 在 IBM,我们期待在未来的几年里,Hadoop 和数据仓库技术能够更加完善地相互融合并汇成一个全新的平台范例:Hadoop 数据仓库.Hadoop 没有展示陈旧的传统仓储架构:相反,它将

Hadoop会取代数仓吗?看硅谷专家怎么说

一想数据管理世界中的那个伟大的存在–数据仓库吧.在过去的二十年中,尽管其他的系统和软件在许许多多的迭代.变革中演进,甚至完全被新模型所抛弃,数据仓库这个老骨干却安然屹立.她可能会偷偷地给自己的面颊,皱纹整容,也可能会激起一些不那么令人深刻的模仿,但是没有什么能长期的吸引她的注意力. 直到现在.自从Hadoop出现在舞台上之后,一直有人嘀咕说,这个闪亮的新星正在为一些最好的数据管理角色提供服务–这些角色就是,在几年前,数据仓库已稳操胜券. 但是现在真的到了数据仓库要退休的时候了吗?Hadoop甚至

Hadoop平台的基本组成与生态系统

Hadoop系统运行于一个由普通商用服务器组成的计算集群上,该服务器集群在提供大规模分布式数据存储资源的同时,也提供大规模的并行化计算资源. 在大数据处理软件系统上,随着Apache Hadoop系统开源化的发展,在最初包含HDFS.MapReduce.HBase等基本子系统的基础上,至今Hadoop平台已经演进为一个包含很多相关子系统的完整的大数据处理生态系统.图1-15展示了Hadoop平台的基本组成与生态系统. 1.MapReduce并行计算框架 MapReduce并行计算框架是一个并行化

一步一步学习大数据:Hadoop生态系统与场景

Hadoop概要 到底是业务推动了技术的发展,还是技术推动了业务的发展,这个话题放在什么时候都会惹来一些争议. 随着互联网以及物联网的蓬勃发展,我们进入了大数据时代.IDC预测,到2020年,全球会有44ZB的数据量.传统存储和技术架构无法满足需求.在2013年出版的<大数据时代>一书中,定义了大数据的5V特点:Volume(大量).Velocity(高速).Variety(多样).Value(低价值密度).Veracity(真实性). 当我们把时间往回看10年,来到了2003年,这一年Goo

Hadoop - 任务调度系统比较

1.概述 在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如:作业的依赖调度,任 务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂.那么,在没有条件和精力去开发一套调度系统的情况下,我们去选择一款第三 方开源的调度系统,来尽量减轻和降低我们日常工作的复杂度,也是极好的.今天,笔者给大家比较几种常见的调度系统,供大家去选择. 2.内容 2.1 Oozie Oozie目前是托管在Apache基金会的,开源.在之