Hadoop会取代数仓吗?看硅谷专家怎么说

一想数据管理世界中的那个伟大的存在–数据仓库吧。在过去的二十年中,尽管其他的系统和软件在许许多多的迭代、变革中演进,甚至完全被新模型所抛弃,数据仓库这个老骨干却安然屹立。她可能会偷偷地给自己的面颊,皱纹整容,也可能会激起一些不那么令人深刻的模仿,但是没有什么能长期的吸引她的注意力。

直到现在。自从Hadoop出现在舞台上之后,一直有人嘀咕说,这个闪亮的新星正在为一些最好的数据管理角色提供服务–这些角色就是,在几年前,数据仓库已稳操胜券。

但是现在真的到了数据仓库要退休的时候了吗?Hadoop甚至想要进入她的鞋子里吗?还有谁在后面等着呢?

让我们仔细看看这些据报道的竞争对手的全部本领。

数据仓库持久吸引力的背后是什么?

简单地说,数据仓库意味着将不同来源的数据聚合为一个用于报告和分析的中央存储库。它长期成为实际解决方案的原因如下:因为这些数据是被聚合的,在经历抽取,转换,加载过程后,协调成为“真理的唯一版本”,缓和矛盾,重构数据格式化的方式,从而适应预定的模式。

结果是一个完整的、可靠的,一致的数据来源,这些数据可用于商业智能软件查询。

Hadoop究竟是什么?

对于需要处理海量数据集的用户来说,这是一个开源的编程框架。使用分布式存储系统,它给用户一种存储、清理和处理大量数据的方法。

为了使数据达到千兆兆字节的传输速度,Hadoop分布式文件系统(HDFS)沿着成千上万的硬件节点读取数据。即使许多节点由于技术故障而停止工作,系统仍能保持正常运行。这意味着存在低风险的数据丢失–对于那些使用大量数据进行非常复杂的分析的企业来说,这是一种真正的恐惧。

难怪Hadoop正在转向一个寻求可靠的方法来运行大数据处理任务的行业。

另外,它是开源的–这是一个巨大的吸引力。它具有无限的可伸缩性和无限的可定制性。包含定制应用程序、查询和方法的范围是无限的。数据挖掘的复杂性可以随着数据的复杂性和数据的数量而增长。

它哪里比数据仓库更出色?

大数据正变得越来越大,许多大型数据仓库都试图采取定制的多处理器设备来应对不断飙升的存储需求。但是除了最大的组织外,所有这些都需要付费。

与此同时,Hadoop可以灵活地处理滚雪球般的数据。然后用户可以将它与数据仓库层或顶部构建的服务相结合,无论是像Presto的SQL软件,或者用相似方式工作的Hive,或者像HBase类的NoSQL。

但这并不意味着Hadoop将取关系型数据库或者数据仓库。事实上,我们马上就会看到,这很可能是最好的支持,而不是取代。

那么他们是竞争对手吗?

完全不是。简单地说,他们没有扮演相同的角色。

数据专家趋向于把Hadoop看作现有数据仓库架构的一个补充,并且可以为他们节省大量现金。通过把数据块迁移到Hadoop,可以减少关系型数据库的压力,从而使数据仓库平台更便宜,并且可以在不增加语速那的情况下进行扩展。

用这种方式,Hadoop可以降低数据仓库的总成本,而不是取代它的某些东西。

它如何使数据仓库的性能更好?

数据仓库的构建成本很高,运行成本和增长成本昂贵。随着收集的数据量的增长,存储需求和花费也会呈指数级增长。

此外,这些庞大的数据集合意味着用户每次运行查询的时候,不能进入数据仓库的全部范围–而且他们的硬件也无法处理这个问题。这意味着使用分析数据集来给业务中的各个部门访问数据仓库特定区域的数据。

它是一个不完美的系统。不仅限制了用户在数据上执行分析的范围,也是一个定时炸弹。

随着越来越多的数据涌入仓库,每个数据集都可能变得如此不堪重负,以致难以使用。你可以通过限制访问来减轻硬件压力,但是那意味着给各个部门越来越窄的数据分析选择。对于严格的商业智能来说,这样的做法并不够好。

Hadoop并没有遭受这些挫折。进入门槛很低,而且对增量投资是开源的。它可以随着时间的推移而建立起来,你可以不断增大数据量而不需要花大量的成本来匹配。

对于那些刚刚进入数据行业的公司–没有对大型机或者基于Unix的数据仓库的投资–这种可扩展的、增量式的框架是非常吸引人的。但是Hadop是一个框架,而不是一个完美的解决方案。它在处理巨大数据集方面很出色,但是它从来没有打算要替代数据仓库。

那么Hadoop和数据仓库是最终的BI梦想团队吗?

哇哦,请等一下。使用Hadoop与数据仓库处理了数据存储问题。但是存储数据只是商业智能的一个要素。

广义上说,一个功能性的、可用的BI系统应该由五个部分组成:

1.在某个地方几种存储数据。2.划分这些数据的工具,如:地理,操作或者其他业务需要的工具。3.为数据分析准备工具。4.帮助您快速处理此数据的ETL数据引擎。5.显示所有这些数据的前端(通常是某种仪表盘)。

即使Hadoop和数据仓库在最好的情况协同工作,他们也只处理这些组件中的第一个。现在,BI技术的创新,同时提供了所有的五个组件,很快将梦想团队降级为二类组合。

谁,谁会为了抢风头而出风头?

正如我们看到的,数据仓库和Hadoop是一个成功的双重行为。但是,要执行来自多个源的快速、高性能的数据分析,您并不需要它们中的任何一个。现在,我们正在见证一颗新星的崛起。

整体的“单栈”解决方案消除了关系数据库的需要,直接链接源数据,无论来自何处,并在现场执行英语教学功能。最好的工作是创建一个元数据(抽象)层,用于在任意数量的表中查询数据,这种格式是以任意格式的任意来源绘制的。

正确的方法是通过构建像柱状数据库和内存处理这样的智能的、节省硬盘的方法来解决通常伴随巨大数据集而来的问题。首先通过只加载正在用的数据简化处理过程,而后确保将这些数据加载到计算机的主内存中,而不是占用RAM。这意味着你可以获得完全的、不受限制的访问所有数据的权限,而不需要像好莱坞山那样大小的计算机来处理它。

一个唱歌、跳舞的超级巨星

更胜一筹的是,使用一个完整的BI系统消除了对非技术用户可理解数据的额外软件层的需求。

正如我们看到的,数据仓库和Hadoop的不足之处在于它们是严格的“后端”解决方案——它们只处理外层数据。

为了使您的前端用户能够访问数据,您仍然需要引入和集成各种各样的应用程序,这些应用程序允许业务团队提取并可视化他们需要的见解。

虽然Hadoop是开源的,但它不是“免费的”。让它做你想做的事情,并将它与你的数据仓库集成,你的工具来处理和准备数据分析,以及前端的仪表板界面,要么需要大量的资源投入,要么需要引入第三方来管理它。另外,当然,你仍然需要投资它需要运行的硬件。

有了一个像样的单栈替代,您可以查询源数据,使用ETL数据引擎快速处理它,并在一步生成新的报和表指示板。现在这种创新挑战了数据仓库、Hadoop或没有Hadoop的未来。

所以,是的,也许是时候让这个(国际)国家宝藏退后一步,让下一代数据技术接手。但并不是因为Hadoop窃取了她的皇冠,而是因为单栈技术正在为BI提供冗余存储数据解决方案。 

本文作者:Shelby Blitz

来源:51CTO

时间: 2024-11-06 15:26:41

Hadoop会取代数仓吗?看硅谷专家怎么说的相关文章

企业大数据平台下数仓建设思路

免费开通大数据服务:https://www.aliyun.com/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师.8年以上互联网数据仓库经历,对系统架构.数据架构拥有丰富的实战经验,曾经数据魔方.淘宝指数的数据架构设计专家. 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构.2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop. 初始时在Hadoop平

干货:解码OneData,阿里的数仓之路。

免费开通大数据服务:https://www.aliyun.com/product/odps 据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍.正在"爆炸式"增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的"新能源",变革我们的生产,影响我们生活.当我们面对如此庞大的数据之时,如果我们不能有序.有结构的进行分类组织和存储,那么在价值被发现前,也许数据成本灾难已经来临.它犹如堆积如山的垃圾,给我们企业

透过光环看硅谷:倒闭公司不计其数

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 腾讯科技讯(童云)北京时间8月28日消息,美国著名科技博客撰稿人尼克·奥尼尔(Nick O'Neill)近日撰文称,硅谷中有很多公司会倒闭,人们只是喜欢无视这一点,因为只有胜利才会让整个硅谷第一眼看起来极具吸引力. 以下是这篇文章的全文: 美国科技博客TechCrunch前资深编辑.现为科技博客Pandodaily创始人.首席执行官兼总编辑的

当AI与招聘相结合,看硅谷“中国籍”初创公司 Leap.ai

近年来,我们已经看到AI技术被用于解决各种各样的问题,创立了Leap.ai的前谷歌工程师Richard Liu和Yunkai Zhou认为,AI也可以用来解决科技行业的招聘难题.他们俩正在通过AI技术帮助科技行业的员工获得梦想公司的面试机会. 从招聘现状来看,LinkedIn作为行业巨头定义了在线招聘,但它所做的还远远不够.LinkedIn去年被微软以260亿美元收购,包括LinkedIn在内的猎头公司,他们提供的招聘服务都是只看数量而不看质量,极为耗时--大多数HR和招聘团队不得不敷衍了事地整

透过FACEBOOK上市看硅谷逻辑

Facebook是创办于美国的一个社交服务网站,于2004年2月4日上线.主要创始人为美国的扎克伯格.Facebook是世界排名领先的照片分享站点,截至2013年11月每天上传约3.5亿张照片.截至2012年5月,Facebook拥有约9亿用户. Facebook按计划5月18日在纳斯达克上市.Facebook的该次上市活动也成为全球互联网行业里程碑式的事件.我们可以通过Facebook的上市透视硅谷逻辑,主要囊括了人才,资本,文化三大方面. 硅谷成功的关键有三点:人才:资本:文化.硅谷是美国创

透过Facebook上市看硅谷逻辑:人才、资本、文化

http://www.aliyun.com/zixun/aggregation/1560.html">Facebook按计划5月18日在纳斯达克上市.Facebook的上市成为全球互联网行业里程碑式的事件. 硅谷是美国创新的圣地,正如纽约是美国金融的圣地,好莱坞是美国电影的圣地.Facebook无疑是硅谷的一个典型,通过Facebook上市这件事情,可以来剖析硅谷的逻辑,解读硅谷成功的原因. 硅谷成功的关键有三点:人才:资本:文化. 一.人才 硅谷成功的第一个关键是人才.Facebook的

到数博会看“2017十大黑科技”

这界数博会一个很有意思的点就是"黑科技"众多,为此组委会还专门评选出了"2017十大黑科技".那么问题来了,到底什么是黑科技呢,怎样才能算是黑科技?这界数博会都有哪些黑科技?这些黑科技又"黑"在哪呢?为此,我们对这次的"2017十大黑科技"进行专题报道,一起来走进这些黑科技. 怎样才能称得上是黑科技 现在"黑科技"这个词用的很多了,那么黑科技到底是什么,要满足哪些条件才能算得上是黑科技呢?在我看来,应该具有

MaxCompute数仓维护心得-五叶草

在维护客户基于MaxCompute搭建的数据仓库时,我们遇到过一些问题,踩过一些坑,同时积累了一些经验,也初步形成了一套操作流程规范,在这里与大家以Tip的形式与大家分享一下. Tip1.避免同步视图 同步的源数据要避免使用视图,在客户的生产环境上曾经出现过这样的情况:由于生成视图的存储过程优化不好,同步视图在同步任务发起请求后很久没有生成出来,导致同步任务及后续的ETL挂起达数小时之久,所以后续和数据提供方接洽,将数据源从视图换为表,保证在同步之前同步表里的内容已经更新. 在测试环境下,通过修

从“1美元”年薪看硅谷科技巨头们的工资

不考虑今年拆股,股价对半的事,Google 在过去的效益非常不错:2013 年里推出了 Chromecast.Google Glass 等产品,股价也上涨了 56%. CEO Larry Page 也该涨工资吧? 谈到年薪这一项,Larry Page 可能要羞涩一下了:在全美排名前 100 的企业 CEO 年薪当中,Page 的排名垫底--1 美元. 纽约时报对 Page 的薪资情况进行了调查,发现情况属实.Page 在过去一年里的薪资确实仅有象征性的 1 美元,并且没有其他股权奖励或红利形式方