不得不用Hadoop进行大数据处理的五大理由

  Joe ">Brightly身为Hadoop的超级粉丝,自己曾经在无数个场合承认自己热爱Hadoop来进行数据处理的理由,比如“可以处理PB级别的数据;可以扩展到数千个处理大量计算工作的节点;可以用非常灵活的方式存储和加载数据……”但当他部署Hadoop用于大数据处理分析的时候,他才意识到它并不是无所不能。

  在Quantivo,Joe及其同事已经“探索了许多方法来部署Hadoop用于回答分析型查询”,直到最后,“它变得好像是用一个锤子来建造一个房屋的运动”,这并不是不可能,但是带来了“不必要的痛苦和可笑的低效成本”。Joe 从五个方面分析了为什么数据分析不使用Hadoop的理由:1:“Hadoop是一个框架,不是一个解决方案”——他认为在解决大数据分析的问题上人们误认为Hadoop可以立即有效工作,而实际上“对于简单的查询,它是可以的。但对于难一些的分析问题,Hadoop会迅速败下阵来,因为需要你直接开发Map/Reduce代码。出于这个原因,Hadoop更像是J2EE编程环境而不是商业分析解决方案。” 所谓框架意味着你一定要在之上做个性化和业务相关的开发和实现,而这些都需要成本。

  2:“Hadoop的子项目Hive和Pig 都不错,但不能逾越其架构的限制。”——Joe提出“Hive 和Pig 都是帮助非专业工程师快速有效使用Hadoop的完善工具,用于把分析查询转换为常用的SQL或Java Map/Reduce 任务,这些任务可以部署在Hadoop环境中。”其中Hive是基于Hadoop的一个数据仓库工具,它可以帮助实现数据汇总、即时查询以及分析存储在Hadoop兼容的文件系统的大型数据集等。而Pig是并行计算的高级数据流语言和执行框架。但作者认为“Hadoop的Map/Reduce框架的一些限制,会导致效率低下,尤其是在节点间通信的情况(这种场合需要排序和连接)。”

  3:“部署是很方便,快捷而且免费,但在后期维护和开发方面成本很高 ”——Joe不否认“工程师可以在一个小时内下载、安装并发布一个简单的查询,因此Hadoop是非常受欢迎的。而且作为没有软件成本的开源项目使得它是替代甲骨文和Teradata的一个非常有吸引力的选择。但是就像很多通用开源框架一样,它并不会完全适配你的业务,因此,要想把开源框架业务化,你就不得不投入开发和维护。”Joe 也认为“一旦当你进入维护和开发阶段,Hadoop的真正成本就会变得很明显。”

  4:“对于大数据流水线和汇总非常有效,但对应用于特定的分析来说是非常可怕的。”——“Hadoop擅长于大量数据的分析和汇总,或把原始数据转化成对另一个应用程序(如搜索或文本挖掘)更有效的东西‘流水线’- 这是它存在的意义。不过,如果你不知道要分析的问题,或如果你想探索数据的模式,Hadoop的很快变得不可收拾。“这再次回到了业务本身,框架是为业务服务的,即便是大数据的分析和汇总,也难以脱离其数据的业务特性。所以对于特定的分析,仍然不得不在编程和执行MapReduce代码上花很多时间才能达到目的。

  5:“性能除了‘不好’的时候都很好。”——“当你需要分析大量的数据时,Hadoop允许你通过数千个节点并行计算,这一点上其潜力很大。但是,并非所有的分析工作可以很容易地进行并行处理,尤其是需要当用户交互驱动的分析。” 所以要想性能很好,你仍然需要专门为自己要解决的问题而设计和优化相应的Hadoop程序,否则会很慢。“因为每个Map/Reduce 任务都要等到之前的工作完成。”所以就像关键路径一样,Hadoop执行性能的快慢会取决于其最慢的MapReduce任务。

  Joe最后认为:“Hadoop是一个用来做一些非常复杂的数据分析的杰出工具。但是具有讽刺意味的​​是,它也是需要大量的编程工作才能得到这些问题的答案。” 这一点不止在数据分析应用方面,它其实反映了目前使用开源框架时候不得不面对的选型平衡问题。当你在选型开源框架或代码的时候,既要考虑清楚它能够帮到你多少,节省多少时间和成本,提高多少效率。也要知道由此而产生多少新增的成本,比如工程师的学习成本、开发和维护成本,以及未来的扩展性,包括如果使用的框架升级了,你和你的团队是否要做相应的升级;甚至还要有安全性方面的考虑,毕竟开源框架的漏洞也是众所周知的。

时间: 2024-10-24 05:22:41

不得不用Hadoop进行大数据处理的五大理由的相关文章

Hadoop并非大数据处理的一切 - 产品和技术

Hadoop并非大数据处理的一切 发布时间:2012.05.30 15:48      来源:赛迪网     作者: 云计算的伟大之处就在于在进行大数据处理时不必再向以往一样购买大量的服务器集群,租用服务器处理大数据更加利用控制成本.Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为,企业希望利用Hadoop来规划其自身未来数据处理的蓝图.从EMC.Oracle到Microsoft,几乎所有高科技厂商都在过去几个月中宣布了自己以Hadoop为基础的大数据战略.现今Hado

如何低成本、高效率搭建Hadoop/Spark大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键. 为了让用户以最简便地方式享用阿里云全球资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,近日,阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,单实例提供最高56核CPU,224GB内存,168TB本地盘容量,5GB/S总吞吐,PPS达120万+.这对Hadoop/Spa

数据为王 Hadoop与大数据处理

随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注.<著云台>的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱.大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十.数百或甚至数千的电脑分配工作.简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术.明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜

观点:Hadoop并非大数据处理的一切

云计算的伟大之处就在于在进行大数据处理时不必再向以往一样购买大量的服务器集群,租用服务器处理大数据更加利用控制成本.Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为,企业希望利用Hadoop来规划其自身未来数据处理的蓝图.从EMC.Oracle到Microsoft,几乎所有高科技厂商都在过去几个月中宣布了自己以Hadoop为基础的大数据战略.现今Hadoop已经成为IT商场吸引客户的热点词汇. Hadoop的成长得到了个人开发者.初创公司和大企业的支持.这也给予用户长时

如何利用Hadoop廉价大数据处理分析

大数据将成为本年度的云计算.这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势. 网站访问和习惯.客户审查数据等等;那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处 理企业这么大量的数据时已经有点不够用了.当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了信息负载. 对于较大的公司来说,海量数据处理已经不是什么新鲜东西了.例如,Twitter和Lin

Hadoop:大数据处理最好工具

架构大数据解决方案的软件工程师们都知道,http://www.aliyun.com/zixun/aggregation/13782.html">业务分析有一项技术跨越了SQL数据库.NoSQL数据库,非结构化数据.面向文档数据存储及大型处理.如果你猜到了Hadoop,那你回答正确.Hadoop也是许多巨头公司具有的一个共性,如亚马逊.雅虎.AOL.Netflix.eBay.微软.谷歌. Twitter和Facebook.IBM甚至是走在时常的前沿,促进Hadoop进行企业分析.此开源模型无

巧妙利用Hadoop大数据处理功能

Hadoop的大http://www.aliyun.com/zixun/aggregation/14345.html">数据处理功能可用来挖掘数据.探索看起来没有关联的信息之间的关系.以及快速解决软件工程师使用传统技术正在努力解决的问题挖,对Hadoop的大数据处理功能如此之多的用途软件专业人士从来就没有感到奇怪过. 住院的病人是否正在饱受着葡萄球菌感染的痛苦?当谈论到使用多种NoSQL和Hadoop的方法解决真实世界问题时,全球教育Hortonworks的高级主管Danielle Tom

用Apache Spark进行大数据处理—入门篇

文章讲的是用Apache Spark进行大数据处理-入门篇,Apache Spark 是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势. 首先,Spark为我们提供了一个全面.统一的框架用于管理各种有着不同性质(文本数据.图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求. Sp

2013 Hadoop Summit 大数据产品汇总

大数据是当下IT领域最活跃的话题之一.没有比近日在圣何塞举行的Hadoop Summit 2013更好的地方去了解关于大数据的最新动态了. 有超过60家大数据公司参与其中,既包括像英特尔和Salesforce.com这样的知名厂商,也有像Sqrrl和Platfora这样成立没有多久的初创公司.以下是这次峰会上展示的13款全新的或者增强的大数据产品. 1. Continuuity开发公司现在支持批量处理 Continuuity发布了支持批量处理的Continuuity Developer Suit