Facebook专家:Hadoop不足以处理大数据

文章讲的是Facebook专家:Hadoop不足以处理大数据,随着大数据在各个业务领域的发展和应用,相关的技术和工具也层出不穷,其中Hadoop框架受到更多的关注和应用。Facebook分析主管Ken Rudin最近在纽约举行的一个Strata+Hadoop世界大会发表主题演讲时表示,不要小看关系型数据库技术的价值。他认为,Hadoop编程框架可能是“大数据”运动的代名词,但它并不是企业从大规模存储的非结构化信息中得到价值的唯一工具。

  有很多很普及的大数据的观念需要被质疑,首先一点就是人们普遍认为你可以简单地利用Hadoop,并且Hadoop易于使用。问题是,Hadoop是一项技术,而大数据和技术无关。大数据是和业务需求有关的。事实上,大数据应该包括Hadoop和关系型数据库以及任何其它适合于我们手头任务的技术。

  Rudin说,Facebook的业务模式依赖于其对于超过10亿社交媒体用户的用户资料和活动数据的处理,从而提供有针对性的广告。然而,对于我们需要做的事情而言,Hadoop并不总是最好的工具。

  例如,在Hadoop中对一个数据集做广泛并且探索性的分析是很有意义的,但关系型存储对于那些尚未发现的东西进行运行分析则更好。Hadoop对于在一个数据集中寻找最低水平的细节也很好用,但关系型数据库对于数据的存储转换和汇总则更有意义。因此底线是,对于你的任何需求,要使用正确的技术。

  他表示,还有另一个假设,认为大数据单纯的行为分析提供了宝贵的价值:“问题是这分析给那些无人问津的问题得出了更加聪明的答案。要弄清楚什么是正确的问题依然是一门艺术”。Facebook一直专注于雇佣合适的员工来运行他们的分析操作,那些人不仅要在统计学专业获得博士学位,并且还要精通业务。

  当你面试员工时,不要只关注于“我们怎么计算这个指标”,相反,你应该给他们一个商业案例来研究,并且问他们在这个案例中哪个是最重要的指标。企业也应该尝试着去培养,人人参与分析。

  据Rudin透露,Facebook运营一个内部的“数据培训营”,一个教导员工如何分析的时长两周的项目。产品经理、设计师、工程师甚至财务部门工作人员都要参加。每个人都参与其中的意义就在于,每个人可以用一个共同的数据语言,来互相讨论数据的问题和麻烦。

  Facebook还改变了统计人员和业务团队的组织方法。如果统计人员保持独立,他们往往会坐在那里等待来自业务领域的请求找上门来,再回应他们,而不是主动去做。但是如果统计人员被放置到业务部门,你会发现多个团体将会试图冗余地解决问题。

  Facebook已经采用了“嵌入式”模式,其中分析师被放在业务团队中,但他们要向一些更高级别的分析师报告,这有助于避免重复的劳动。

  对于Hadoop如何组合和处理大数据的技巧和方法,数据专家Anoop曾经在另一篇文章中提到过,一般情况下,为了得到最终的结果,数据需要加入多个数据集一起被处理和联合。Hadoop中有很多方法可以加入多个数据集。MapReduce提供了Map端和Reduce端的数据连接。这些连接是非平凡的连接,并且可能会是非常昂贵的操作。Pig和Hive也具有同等的能力来申请连接到多个数据集。Pig提供了复制连接,合并连接和倾斜连接(skewed join),并且Hive提供了map端的连接和完整外部连接来分析数据。一个重要的事实是,通过使用各种工具,比如MapReduce、Pig和Hive等,数据可以基于它们的内置功能和实际需求来使用它们。至于在Hadoop分析大量数据,Anoop指出,通常,在大数据/Hadoop的世界,一些问题可能并不复杂,并且解决方案也是直截了当的,但面临的挑战是数据量。在这种情况下需要不同的解决办法来解决问题。一些分析任务是从日志文件中统计明确的ID的数目、在特定的日期范围内改造存储的数据、以及网友排名等。所有这些任务都可以通过Hadoop中的多种工具和技术如MapReduce、Hive、Pig、Giraph和Mahout等来解决。这些工具在自定义例程的帮助下可以灵活地扩展它们的能力。

  事实上,与Rudin持相同观点的还有数据专家Joe Brightly,他也总结了Hadoop不适合数据分析的几个理由,其中包括:

  “Hadoop是一个框架,不是一个解决方案”——他认为在解决大数据分析的问题上人们误认为Hadoop可以立即有效工作,而实际上“对于简单的查询,它是可以的。但对于难一些的分析问题,Hadoop会迅速败下阵来,因为需要你直接开发Map/Reduce代码。出于这个原因,Hadoop更像是J2EE编程环境而不是商业分析解决方案。” 所谓框架意味着你一定要在之上做个性化和业务相关的开发和实现,而这些都需要成本。

  Hadoop的子项目Hive和Pig 都不错,但不能逾越其架构的限制。”——Joe提出“Hive 和Pig 都是帮助非专业工程师快速有效使用Hadoop的完善工具,用于把分析查询转换为常用的SQL或Java Map/Reduce 任务,这些任务可以部署在Hadoop环境中。”其中Hive是基于Hadoop的一个数据仓库工具,它可以帮助实现数据汇总、即时查询以及分析存储在Hadoop兼容的文件系统的大型数据集等。而Pig是并行计算的高级数据流语言和执行框架。但作者认为“Hadoop的Map/Reduce框架的一些限制,会导致效率低下,尤其是在节点间通信的情况(这种场合需要排序和连接)。”

  Joe总结道:“Hadoop是一个用来做一些非常复杂的数据分析的杰出工具。但是具有讽刺意味的是,它也是需要大量的编程工作才能得到这些问题的答案。” 这一点不止在数据分析应用方面,它其实反映了目前使用开源框架时候不得不面对的选型平衡问题。当你在选型开源框架或代码的时候,既要考虑清楚它能够帮到你多少,节省多少时间和成本,提高多少效率。也要知道由此而产生多少新增的成本,比如工程师的学习成本、开发和维护成本,以及未来的扩展性,包括如果使用的框架升级了,你和你的团队是否要做相应的升级;甚至还要有安全性方面的考虑,毕竟开源框架的漏洞也是众所周知的。

作者:王玉圆

来源:IT168

原文链接:Facebook专家:Hadoop不足以处理大数据

时间: 2024-10-31 15:40:42

Facebook专家:Hadoop不足以处理大数据的相关文章

拥抱Hadoop领跑大数据 实现价值回报

本文讲的是拥抱Hadoop领跑大数据 实现价值回报,当大数据风暴来临的时候,你是否已经做好准备?2012年对于企业来讲最为企业CIO所关心的话题之一必然要属于大数据.我们看到无论是个人还是企业,随着互联网.3G技术的普及以及企业自身数据的积累,大量的数据被产生,而这些大数据最终在存储.安全以及价值转换将成为企业关注的焦点. 相关数据调查显示,到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB.根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.

Hadoop之后:大数据的未来

ZDNet至顶网服务器频道 04月03日 :在实时数据世界里,为什么我们还这么执着于Hadoop?根据451 Research调查数据显示,围绕批处理架构的Hadoop仍然是大数据[注]的代表技术,尽管其声誉仍然超过实际部署情况. 还没有真正部署Hadoop的企业可能想要再等一等.而随着Apache Spark等其他技术(Storm.Kafka等)的出现,我们似乎与Hadoop的批处理渐行渐远,逐渐转向实时数据的未来. 批处理不是重点 Cloudera的Doug Cutting是一个非常聪明的人

Apache Hadoop已成为大数据行业发展背后的驱动力

随着互联网技术的发展,当今网络中每天都在产生海量的信息,这其中包括半结构化和非结构化的数据.组织可以通过对海量信息的分析了解到他们客户真正需要的以及为什么需要的原因.如今Apache Hadoop已成为大数据行业发展背后的驱动力. Facebook的工程师相信他们运行着最大的基于Hadoop的数据收集平台.Facebook基础设施工程副总裁Jay Parikh表示Facebook大多数的网站数据存储在单一的集群之中,容量可达100PB,Facebook的集群相比于其他公司的集群可谓是独树一帜.

何刚:Hadoop成为打开大数据之门金钥匙

文章讲的是何刚:Hadoop成为打开大数据之门金钥匙,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲IT168专题报道:http://www.it168.com/r

LSI专家访谈:分享大数据和SSD发展趋势

文章讲的是LSI专家访谈:分享大数据和SSD发展趋势,9月4日,2013中国系统架构师大会在北京举行.LSI CTO办公室专家.处理器及系统架构高级专家Robert Ober在大会上做了<大数据及大数据中心优化的资源池化>的主题演讲.会后,Robert Ober接受了IT168记者的采访,他表示,中国占据了全球服务器市场25%-30%的份额,其中传统的企业级市场要么没有增长,要么是在下降,而互联网数据中心市场则在大幅增加.LSI希望把过去4-5年来服务美国互联网公司和大型数据中心的业务和技术经

专家总结:有效管理大数据的7个诀窍

大学教授和统计学家们对数据大张旗鼓的推崇与使用,引导了一个新的行业诞生,那就是大数据的收集与管理.专家们认为,几乎所有的行业都会对大数据有所贡献.但因为大数据行业较新,所以管理大数据的方法并没有明确的阐释. 如果你正在寻求管理自身数据的方法,那么这篇文章会对你有很大帮助,首先,让我们纠正一下基本概念. 什么是"大数据"? Greg Satell在福布斯杂志中曾说过:"在尝试管理大数据之前,首先要明白这个词的意思是什么.虽然"大数据"这个名词现已十分流行,很

Hadoop在电信大数据业务系统中的应用

文章讲的是Hadoop在电信大数据业务系统中的应用,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲IT168专题报道:http://www.it168.com/re

Amr Awadallah:通过来自Cloudera的Hadoop来压缩大数据 - 产品和技术

Amr Awadallah:通过来自http://www.aliyun.com/zixun/aggregation/13456.html">Cloudera的Hadoop来压缩大数据 发布时间:2012.05.25 10:31      来源:赛迪网     作者:赛迪网 [赛迪网讯]Cloudera创始人兼CTO Amr Awadallah近日访华,他表示,我们都知道如何去存储数据,但不知道如何去处理或者是回答一些关于数据的问题.我们可以通过使用Hadoop让数据存留时更长,完成数据良好

运维专家:我在大数据项目中踩过的那些坑

一.主要讨论人员 提问:陈超,七牛云技术总监 回答:朱冠胤,百度资深大数据专家,连续两次百度最高奖得主. 二.引言 "坐而论道"是一个轮流问答的玩法.本文是大数据主题周中,几位国内一线专家激情问答的一部分内容.期间,各位群友也积极参与. 三.问题集锦 1.MongoDB在百度的使用场景及规模? 2.假设现在让你完全主导一个类似Hadoop的项目,你会选择哪种语言? 3.分享你在百度各种大数据项目中踩过的坑? 4.你所在团队在自研和使用开源方案的主要考虑因素? 5.新一代分布式数据库(N