大数据处理工具Hadoop是否有些名不副实?

  近来多次和百度、阿里、腾讯、中移动数据中心的架构师进行交流,同时也在网上的论坛/社区主导大数据分析范例的一些讨论,与互联网/云开发人员进行沟通。由此,我愉快地发现,大数据分析在中国非常普遍:不光是星巴克、纸牌屋等美国文化元素在中国广受追捧;Hadoop也受到广泛接纳,并且在中国的云开发人员的讨论中占据了主导地位。但是,和其他流行事物一样,人们在追捧讨论的同时也会考虑它当前的热度是否合理。“如果我讲Hadoop有些名不副实,会不会有人来踢馆?”——可能全世界的主管和开发人员都在考虑这个问题。眼下公司介绍中夹杂“大数据”等词汇,冀图借此提升公司形象的情况随处可见,另一方面,开发人员购买Hadoop类书籍来自我提升也屡见不鲜。

  然而更加理性的架构师则应该至少还记得最初采纳Hadoop的实际考量:

  a) 免费。

  b) 只需要廉价(通用的)硬件——一个通用服务器的机群仍然比一台高性能、专用的机器要便宜。

  c) 开发便利。有了庞大的使用群体,代码基的增长速度惊人,自学成才的开发人员也随处可见——从BBS版块或个人的微信朋友圈就能方便找到。

  这些优点很难抗拒。但是要实现一个能够进行自动任务追踪、数据复制、文件共享的并行处理平台,需要开发和维护千百万行平台软件代码,光是想一想就足以让任何公司的工程师头大不已。此外,为了实现这个系统,还要专门定制硬件,又会额外增加数年的时间,此后才能真正开始开发分析应用。那么,是否除了Hadoop,我们就别无选择?

  让我们再来聆听硬件架构师的声音:Hadoop对于某些任务而言可能十分低效:

  1) 面向文件——Hadoop的输入来自文件,并用文件来存储中间结果,因此对于每一次Map-Reduce,其性能都取决于文件I/O。

  2) 无共享——每个节点都完全拥有自己的本地资源(CPU、DRAM、本地SSD、本地HDD),并完全依赖于本地资源,除非是通过分布式文件系统(HDFS)请求远端数据的情况。

  因此,Hadoop对于其最初的设计目标而言过于理想,即采用一群便宜的机器来并行处理非常庞大的数据文件,并以批处理的模式将结果信息浓缩到小得多的文件中。

  而今,我们在微软、Yahoo和Facebook的友人揭示了一些惊人的统计数据:除非你是在进行全网规模的关键字索引,否则大数据通常根本就不那么“大”(能存放到个人笔记本电脑上)!还可以很方便地分割成小块进行消化处理(也就是说,不要对一整年的历史记录进行数据挖掘,而是按天来做处理)。

  a) 微软和Yahoo的中等大小的Map-Reduce文件只有14GB。

  b) 90%的Facebook Map-Reduce任务小于100GB。

  绝大多数这些分析任务可以放在单个服务器的主存储当中。如果有某种方式能够共享单个机架中服务器的存储,可能有99%的任务都可以就此完成。那么我们还有必要去捣腾文件么?何必还费事去把HDD升级成SSD?任何软件工程师都会讲:要是我的全部数据都能存放在主存储当中….那我的速度就能快上100倍!

  眼下这个梦想正在变为现实。我在BBS版块上发贴时,正看见“Spark峰会——4月19日,北京——100倍于Hadoop的大数据分析”的闪动宣传条幅。Spark改变了什么,能号称比Hadoop快上100倍呢?

  a) 存储内数据分析——可以不再需要通过文件系统和磁盘IO来访问数据,对多次重复处理非常有利(Map却无需Reduce)

  b) 无共享——数据共享还是由远端节点提出并予以满足的一项业务请求

  看来,光是去除HDFS就带来了100倍的提升?那么,如果硬件允许节点之间直接共享存储中的数据结构呢?能否带来额外的100倍提升?

  就此,再进一步和大家分享一下硬件架构师有关大数据的梦想:

  a) 构建带有高速互联的机架

  b) 在机架里堆放一组CPU(CPU池)

  c) 增加共享的DRAM以及/或者非易失性存储池

  d) 以及共享的SSD/HDDs池

  关于这一梦想,我们PMC“P星人”为其冠名为FDIO;Intel 称之为RSA;Facebook以此为OpenCompute的未来;Baidu则命名为天蝎3.0。通过它,全世界99%的大数据问题也许都能在单个机架之内得到处理。

推荐阅读:

  1.列举不适合大数据处理的10件事情

  2.从文章写作揭开大数据处理面纱

  3.大数据处理的模式 — — 系统结构、方法及发展趋势

原文链接:http://blog.csdn.net/pmc/article/details/25194467

时间: 2024-09-20 14:51:36

大数据处理工具Hadoop是否有些名不副实?的相关文章

网友解读:大数据处理工具哪家强?

文章讲的是网友解读:大数据处理工具哪家强,近年呈爆发之势的大数据随着两会的召开再次被聚焦,在两会议题中成为高频词汇.各大报道中,利用大数据打造智慧城市.促进金融行业发展.建立两会大数据平台--两会委员"提案夹"中关于大数据的提案层出不穷."大数据外部环境推动着商业模式及行为的变化,对于企业来说,不对大数据善加利用就等于折了翅膀.面对亟待处理的庞大数据资源,企业遇到了哪些困难?处理数据的"利器"该如何选择? Hadoop高人气获最佳工具,魅力何在? 当讨论到

英特尔放弃自家大数据处理软件Hadoop版本

3月28日消息,据国外http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,科技博客网站VentureBeat获悉,英特尔将宣布停止发行自家开放源代码大数据处理软件Hadoop版本,转而支持快速增长的大数据公司Cloudera的Hadoop版本. 知情人士向VentureBeat报料,英特尔旗下投资机构Intel Capital将公布对Cloudera的新一轮投资,并成为Cloudera的最大股东.Intel Capital可能向

大数据时代你不得不了解的大数据处理工具

如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这种对数据的要求限制了可处理的数据种类,同时这 种惯

从理论到实践的剖析,一网打尽13款开源Java大数据处理工具

什么是大数据?你可能会问; 更重要的是为什么它是在几乎所有业务领域的最新趋势?由于事实上"大数据"是一个非常简单的术语 - 它正是它说 - 一个非常大的数据集.有多大?确切的答案是"一样大,你能想象"!这个数据集怎么能这么大规模大吗?因为数据可能来自任何地方:RFID传感器来收集流量数据,用来收集气象信息的传感器,从手机的GPRS数据包,社会媒体网站,数码照片和视频,在线购买交易记录你的名字!大数据是一个巨大的数据集可能包含从产生数据,,当然前提是这些信息是我们感兴

CIO调查:企业需要高速大数据处理工具

不足为奇,现在大多数企业越来越重视大数据.但是可能会引起质疑的是,很多企业机构表示依赖大数据的实时处理来推动其业务,以及宣布说正在考虑把其大数据转移到云的公司数量. 这些发现来自由GigaSpaces最近发起的一个调查,在询问了在各行业的243名IT高管,关于他们的大数据感知和计划.分布式应用程序环境和一个开放的平台即服务(PaaS)云部署堆栈的端到端扩展解决方案的提供者,在2012年的秋天期间进行了在线调查. 调查结果包括: 约80%的受访者表示,大数据处理是一项至关重要的功能 超过70%的人

大数据处理平台——hadoop能为企业带来什么?

现在,"大数据"这个概念在IT行业是越来越流行了.美国国家海洋与大气管理局NOAA利用"大数据"进行各种分析.<纽约时报>使用大数据对于新闻分析和WEB信息进行挖掘.迪斯尼则利用主题公园.商店以及WEB资产进行客户http://www.aliyun.com/zixun/aggregation/9850.html">行为分析. "大数据"不单单只是适用于大型的企业,而且还可以应用于各个不同规模的,不同杨业的企业.比如通过

一共81个,开源大数据处理工具汇总(上)

本文一共分为上下两部分.我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考.下面是第一部分. 查询引擎 一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动. Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的J

Hadoop:稳定、高效、灵活的大数据处理平台

如果你和别人谈论大数据,那么你们很快就会把话题转到那只黄色的大象身上--Hadoop(它的标志是一只黄色大象).这个开源的软件平台是由Apache基金会发起的,它的价值在于能够简便且高效地处理超大型数据. 但是,究竟什么是 Hadoop呢?简单地说, Hadoop是一个能够对大量数据进行分布式处理的软件框架.首先,它将大量的数据集保存在分布式服务器集群中,之后它将在每个服务器集群里运行"分布式"数据分析应用. 那Hadoop又有什么特殊之处呢?首先,它很可靠,即使某一个或某一组服务器宕

大数据处理——Hadoop解析(一)

概述 这个时代被称之为大数据时代,各行各业生产的数据量呈现爆发性增长,并且基于这些爆发性增长的数据做深层次的数据挖掘.分析.处理.因此,我们可以很容易的感觉到,在这样一个大数据的时代,我们很多做事情的方法正在发生了改变.例如,基于大数据分析可以做疾病预测控制;基于大数据分析可以做交通流量预测控制;基于大数据分析可以做大型系统故障诊断预测;基于大数据分析可以做客户消费推荐.可以说,大数据时代可以解决很多以前非常难以解决的问题.可以这样讲,在这样一个时代,大数据可以让我们的生活变得更加美好. 突如其