Hadoop之后:大数据的未来

ZDNet至顶网服务器频道 04月03日 :在实时数据世界里,为什么我们还这么执着于Hadoop?根据451 Research调查数据显示,围绕批处理架构的Hadoop仍然是大数据[注]的代表技术,尽管其声誉仍然超过实际部署情况。

还没有真正部署Hadoop的企业可能想要再等一等。而随着Apache Spark等其他技术(Storm、Kafka等)的出现,我们似乎与Hadoop的批处理渐行渐远,逐渐转向实时数据的未来。

批处理不是重点

Cloudera的Doug Cutting是一个非常聪明的人,也是开源开发人员,Hadoop、Lucene等大数据工具的开发都有他的功劳。

虽然Cutting承认实时流媒体技术的重要性,但他并没有否认面向批处理的Hadoop的价值,他表示:并不是因为我们觉得批处理是最好的,所以Hadoop围绕批处理而构建。批处理(特别是MapReduce)很自然是第一步,因为它相对容易部署,并提供很重要的价值。在Hadoop之前,没有办法使用开源软件在商品硬件存储和处理千兆字节。Hadoop的MapReduce是很大的进步。我们很难说清楚大数据的商品化对这个世界的重要性。这并不是说在Hadoop之前我们没有存储和分析大量数据,而是Hadoop让我们非常廉价地实现这个过程。

总之,Hadoop民主化了大数据。

转向流数据?

然而,Hadoop并没有让大数据分析变得容易。正如DataStax首席布道者Patrick McFadin表示,从企业数据挖掘价值并没有那么简单:我们都听说过存储和分析PB级数据的投资回报率的问题。谷歌、雅虎和Facebook都在从中创造惊人的价值,而大部分企业都在试图研究如何分析所有数据,第一:收集所有数据;第二:解析所有数据;第三:利润!在数据收集和利润之间有很多麻烦的步骤。随着企业试图加快对实时数据的分析能力,新技术为他们提供了可能。

McFadin发现了这个新大数据堆栈的关键要素。首先是一个排队系统,Kafka、RabbitMQ和Kinesis等。然后是流处理层,这可能包括Storm、Spark Streaming或者Samza。对于高速存储,企业经常转向Cassandra、HBase、MongoDB或者MySQL等关系型数据库。

最有趣的是批处理仍然有用武之地。McFadin表示,批处理现在可用于处理,即汇总和更深入的分析。批处理和实时的融合被称为“Lambda架构”,这涉及让三个元素和谐地共处:批处理、速度和服务。

换句话说,批处理仍然有用。

淘汰批处理

但并不是每个人都同意。Zoomdata公司首席执行官和联合创始人Justin Langseth认为Lambda是“不必要的”,并称,“现在有端到端工具可以从采购、运输、存储到分析和可视化来处理数据,而不需要批处理”。在他看来,批处理是大数据过去的遗留物:实时数据显然最好应该作为流来处理,而且还可以加载历史数据,正如你的DVR可以加载电影《飘》或者上周的电视节目《美国偶像》到你的电视。这种区别很重要,Zoomdata认为将数据作为流来分析可以增加可扩展性和灵活性,而无论数据是实时还是历史数据。

然而,超越可扩展性和灵活性好处的可能是将批处理从大数据过程移除所带来的简单性。Langseth认为,“当你不需要担心批处理窗口以及从批处理故障中恢复时,这可以极大地简化大数据架构。”

流分析取代Hadoop?

Cutting称,还没有那么快,Cutting认为未来Hadoop等技术并不会完全被淘汰,流分析会得以发展,Cloudera的Enterprise Data Hub也是一样。事实上,他不认为会广泛转向流分析,而是为大家带来了又一种选择。

更有趣的是,大数据的大爆炸会让行业催生出一些好方法来应对数据处理。

我认为我们不会再那么频繁地看到Spark这样的主要技术增加,随着时间的推移,我们将会标准化这些工具,为大多数人提供功能来满足其大数据应用需求。Hadoop带来了技术爆炸,但我们可能会进入比较正常的演化过程,在各行业广泛使用这些技术。

DataStax社区经理Scott Hirleman同意说:“批处理并不会消失,总是会需要对大量数据的大规模分析。”现在大家对流分析有极大的兴趣,但称现在还不清楚这种趋势对大数据计划的影响。

总之,流分析完全是关于“和”,而不是“或者”,这是对围绕批处理系统(例如Hadoop)的很好的补充,但这肯定不会完全取代Hadoop。

原文发布时间为:2015年04月03日

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-10-16 13:57:27

Hadoop之后:大数据的未来的相关文章

IDF2013:英特尔超越Hadoop的大数据

[IT168 专稿]2013年4月10日消息,2013年英特尔信息技术峰会(IDF 2013)在北京国家会议中心举行,本届IDF主题为"未来,用"芯"体验",宣示英特尔更加以用户体验为核心,立足英特尔架构继续扩大和深化产业合作,全面推动计算技术创新.芯片制造创新.应用体验创新.终端形态创新和云端智能创新,以强大的计算力开启一个全新的个性化体验新时代.来自中国和全球各地的数千名软硬件开发人员.技术管理人员及媒体.分析师将汇聚一堂,体验前沿的技术成果,探索未来的创新趋势

Hadoop没有消亡,它是大数据的未来

文章讲的是Hadoop没有消亡,它是大数据的未来,人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,为了反驳此前一篇文章<为什么 Hadoop 正在消亡?(Why Hadoop is Failing)>的观点,他在自己的博客上写了一篇论述自己看法的文章,他认为达尔文式的开源生态系统正在确保 Hadoop 成为稳固和成熟的技术平台. 「女士,那么刚出生的孩子能干什么?」--迈克尔·法拉第,在 18 世纪被

Hadoop之父勾勒大数据平台未来

"大数据不是炒作,也不是泡沫.Hadoop在未来将继续追随谷歌的脚步."Hadoop的创造者兼Apache Hadoop项目创始人Doug Cutting近日表示. 作为一个批处理计算引擎,Apache Hadoop是大数据核心的开源软件框架.有一种说法是,Hadoop并不适用于真正实时数据可见性所需要的在线互动数据处理.事实是这样的吗?Hadoop的创造者兼Apache Hadoop项目创始人(现任Cloudera公司首席架构师)Doug Cutting说:"相信Hadoo

互联网已死-大数据的未来在哪里?

一.大数据的未来在哪里 1.互联网已死 大数据的未来在哪里?以BAT为代表的互联网公司之外是否还会有新的互联网巨无霸诞生,基于技术和资本两方面的考虑,几无可能,未来的互联网世界只能是一个几家独大,行业细分的市场,新生互联网公司的机会在于细分,而不在于挑战传统互联网巨无霸.具体到大数据应用来讲,大数据在互联网行业的应用也必将是一个行业细化的过程,而BAT的触角几乎无处不在,新公司的崛起任重而道远,大数据发挥价值的空间也就变成了BAT手中的玩具. 2.传统行业才是大数据的春天 大数据向传统行业的渗透

大数据技术 未来发展前景及趋势分析

文章讲的是大数据技术 未来发展前景及趋势分析,在过去几年里,大数据技术已得到广泛关注.在这一领域,有几个趋势和创新正悄然发生.本文整理了您目前正在使用或未来将要使用的大数据的新趋势和变化. 流大数据分析 · Storm: Apache Storm是一种开源的分布式实时计算系统.Storm加速了流数据处理的过程,为Hadoop批处理提供实时数据处理. · Spark: Spark是一个兼容Hadoop数据源的内存数据处理平台,运行速度相比于Hadoop MapReduce更快.Spark适合机器学

《Hadoop海量数据处理:技术详解与项目实战》一1.2 Hadoop和大数据

1.2 Hadoop和大数据 Hadoop海量数据处理:技术详解与项目实战 在人们对云计算这个词汇耳熟能详之后,大数据这个词汇又在最短时间内进入大众视野.云计算对于普通人来说就像云一样,一直没有机会能够真正感受到,而大数据则更加实际,是确确实实能够改变人们生活的事物.Hadoop从某个方面来说,与大数据结合得更加紧密,它就是为大数据而生的. 1.2.1 大数据的定义 "大数据"(big data),一个看似通俗直白.简单朴实的名词,却无疑成为了时下IT界最炙手可热的名词,在全球引领了新

零售业如何用Hadoop开启大数据之门?

文章讲的是零售业如何用Hadoop开启大数据之门,在过去几年,全球零售商一直试图利用大数据创造价值.由于其大数据分析基础架构的限制,许多工作被一再推迟.Hadoop为这些零售商打开了新的大门,它可以解决他们在过去几年在大数据领域面临的许多问题和挑战. Hadoop:跨多门编程语言的大数据解决方案 Hadoop背后的技术最初是由Google大约在10年前开发的.核心代码主要是用Java编写的,但有一些是用C编写的.然而,它运行在一个称为MapReduce的编程模型中,这允许开发人员用其他语言创建新

Hadoop证明大数据大有作为的10个理由

文章讲的是Hadoop证明大数据大有作为的10个理由,大数据已经成为2012年IT界最时髦的一个词,几乎每个IT人士都在谈论大数据.随着互联网科技日益成熟,各种类型的数据增长将会超越历史上任何一个时期;用户想要从这庞大的数据库中提取对自己有用的信息,就离不开大数据分析技术和工具.以下一组幻灯片截图(欲查看原幻灯片请点击文末原文地址)主要是通过分析云计算平台Hadoop,向大家展示了大数据分析将大有作为的10个理由. 1. Hadoop用户迅速增长 越来越多企业开始使用Hadoop平台处理大量数据

Hadean完成260万美元融资,将颠覆 Spark、Hadoop等大数据框架

众所周知,利用算法分析不同规模的数据量时所需要的服务器资资源是不一样的 .许多企业在做大数据分析时,尤其是数据量非常庞大时,所需要的服务器资源仍是一笔无法避免巨大开销. 然而一家来自伦敦的公司近期声称他们创新型的解决了这一难题,他们的解决方案将在无须占用任何工程资源的前提下用算法对任意规模数据进行运算与分析. 听起来虽然不可思议,但资本还是用真金白金给出了回复.伦敦的Hadean今日完成了260万美元的种子轮投资,投资方为White Cloud Capital 和 Entrepreneur Fi

大数据“流言”:解析Hadoop和大数据的七误解

对于Hadoop技术而言,可以说是开源领域的传奇,然而如今业界还伴随着一些流言,这些流言可能会导致IT高管们带着"有色"的观点去制定策略. 如今,数据量在以惊人的速度增长,从IDC分析师报告中2013年数据存储上的增长速度将达到53.4%,AT&T更是声称无线数据的流量在过去的5年内增长200倍,从互联网内容.电子邮件.应用通知.社交消息以及每天接收的消息都在显著的增长,这也是众多大企业都聚焦大数据的原因所在. 毫无疑问,Hadoop成为解决大数据需求的主要投资领域之一,而类似