一个 Hadoop 老兵的自白

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的Hadoop版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。Jim Scott 是 MapR 企业战略&架构部门的负责人。2009年,他接触了自己的第一个 Hadoop 版本 Cloudera。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案。

Append-only文件访问方式

HDFS 的 Append-only 文件访问方式是一个巨大的障碍,导致下游项目不得不解决这个问题。例如,HBase 就实现了“墓碑化(Tombstoning)”和“合并(Compactions)”功能。但是,如果这些动作发生在负载高峰期,会严重影响生产系统的性能。MapR 通过创建 MapR-DB 解决了该问题。MapR-DB 模仿了谷歌的 BigTable,支持 HBase API,是一个零管理实时数据库。

系统集成

HDFS 不兼容 POSIX 和 NFS。要查看 HDFS 中的文件,只能通过 HDFS 命令行接口来查询。MapR-FS 是一个操作系统级的文件系统,兼容 POSIX。查看该分布式文件系统中的文件,只需要使用 LS 命令。编辑其中的文件,也不需要专门的工具。Linux 中任何可以读写 NFS 系统的应用程序都可以读写 MapR-FS。

备份&恢复

Apache Hadoop 在灾难恢复和备份方面存在严重不足。Hadoop 的数据复制可以有效应对磁盘故障,但对数据损坏和人为错误无能为力。谨慎起见,在向生产环境部署新软件之前,需要生成一个数据快照。但是,Apache Hadoop 的快照只是一个元数据副本。而 MapR 快照则近乎是数据的瞬时拷贝,即使文件正在被写入也可以生成。并且,用户还可以生成 MapR-DB 表的快照。

维护&升级

任何优秀的企业应用程序都离不开维护、管理和升级,Hadoop 也不例外。但 Hadoop 的升级维护可能会非常麻烦。MapR 每次发布都会针对许多开源软件项目的多个版本进行测试。它是唯一一个支持在同一个集群上运行软件的不同版本的 Hadoop 版本。

开源软件选择

在使用 Hadoop 的时候,相关开源软件的选择是个难题。MapR 支持开放式 API,提供了一个无偏见的 Hadoop 开源软件集合,使用户能够选择自己需要的开源项目。

此外,Jim 还提到,NameNode 是个单点故障点。感兴趣的读者可以进一步阅读。

对 MapR 感兴趣的读者,可以下载 MapR M3 社区版本,免费体验 MapR 的性能。

文章转载自 开源中国社区[https://www.oschina.net]

时间: 2024-07-30 15:03:22

一个 Hadoop 老兵的自白的相关文章

《深入理解Hadoop(原书第2版)》——3.4第一个Hadoop程序

3.4第一个Hadoop程序 本节中,你将开发你的第一个Hadoop程序.开发此程序使用的开发环境是带有Maven插件的Eclipse.如果你使用Cloudera公司的虚拟机,开发环境已经预先安装于其中了.附录B讲解了如何在Eclipse中创建一个Maven工程. 首先创建一个空的Maven工程,并将所需依赖库添加其中.项目对象模型(Project Object Model,POM)如代码清单3-1所示.创建一个文件名为pom.xml的文件,把代码清单3-1中的代码拷贝到该文件中. 现在可以开发

一个传统老兵的触电史

查看最新行情  易居周忻:一个传统老兵的"触电史" 很多人认为易居上市后我会开更多门店,但我却进入了陌生的互联网领域. 编者按:周忻,易居中国创始人,成功的连续创业者:2007年,他一手创办的易居中国作为第一家在美国上市的中国轻资产地产概念股于纽交所正式挂牌:2011年,他所带领的易居中国推出房地产电商eju.com,成为对房地产行业影响深远的大事件之一.他说,当他提出房产电商的概念时,被大家认为是疯子. 我卖了22年的房子,公司的理念从第一天就开始确立了――做中国房地产最好的服务生.

一个老DBA的自白

第一章  一个老DBA的自白 DBAplus社群 | 2015-12-14 23:44 Part 1 十余年,那些喜与泪 第一节 初出茅庐,遍地拣宝 自2000年,我就开始接触SQL SERVER数据库了.虽然也用了foxbase,dbaseIII,以及Oracle,但是,你懂的,SQLSERVER"简单"嘛,所以我连本科毕业设计用的都是SQL SERVER(研究生毕业论文用的是SPSS,不是因为简单,而是因为里面用到了统计学知识,我夫人的专业领域). 本科毕业以后,接收单位云南电信网

一个Hadoop难以查找的错误

一个Hadoop难以查找的错误 This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh Starting http://www.aliyun.com/zixun/aggregation/11696.html">namenodes on [Master132.Hadoop] Master132.Hadoop: starting namenode, logging to /usr/hadoop/logs/had

易居中国周忻:一个传统老兵的“触电史”

摘要: 查看最新行情 易居周忻:一个传统老兵的触电史 很多人认为易居上市后我会开更多门店,但我却进入了陌生的互联网领域. 编者按:周忻,易居中国创始人,成功的连续创业者:200  查看最新行情  易居周忻:一个传统老兵的"触电史" 很多人认为易居上市后我会开更多门店,但我却进入了陌生的互联网领域. 编者按:周忻,易居中国创始人,成功的连续创业者:2007年,他一手创办的易居中国作为第一家在美国上市的中国轻资产地产概念股于纽交所正式挂牌:2011年,他所带领的易居中国推出房地产电商eju

刘晓松:一个创业老兵一个天使投资人

"爱创业,不爱做老板;爱赚钱,也爱花钱;要成就感,更爱投资回报率;不是财神,不是金主,不是魔鬼;是导师,是伯乐,更是助产士;他是天使,一个高尚的人,一个脱离了低级趣味的人,一个有益于人民的人 --"天使投资人,一直是一个神秘又让人好奇的称号,据<创业家>杂志报道:" 国内投资最多的天使是徐小平,据说有 40 多个;国内投资金额最大的天使是薛蛮子,据说达到上亿元;国内单个项目投资回报率最高的天使是刘晓松,他投资腾讯的回报据说达到了 2000 倍,迄今未被超越.&qu

IntelliJ IDEA + Maven环境编写第一个hadoop程序

1. 新建IntelliJ下的maven项目 点击File->New->Project,在弹出的对话框中选择Maven,JDK选择你自己安装的版本,点击Next   2. 填写Maven的GroupId和ArtifactId 你可以根据自己的项目随便填,点击Next 这样就新建好了一个空的项目 这里程序名填写WordCount,我们的程序是一个通用的网上的范例,用来计算文件中单词出现的次数   3. 设置程序的编译版本 打开Intellij的Preference偏好设置,定位到Build, E

猪八戒:一个事业狂人的自白

人们看<西游记>,总是看到那只遭瘟的猴子,忽略我这个取经团队之中我这个核心人物.你问我为什么这么说?好,今天我就告诉你其中的原因,你可要听仔细了: 第一,我是根红苗正的天将,有着取经的身份合法证明.在被贬下界之前我是天蓬元帅,掌管着十万天宫水军,那是多么威风的一个职位啊!--至今我还怀念那段美好的时光:沙师弟虽说是卷簾大将,但是那毕竟只是负责玉帝内宫的,比不得我这种正统出身的:我师傅是如来座下的金蝉子大弟子,身份尊贵那就不用说了,但是那只是佛家的一个称呼,连文凭都没有,出了佛界就没有人承认,即

一个互联网创业者的自白:向VC出卖灵魂

互联网 做钱包网快一年了,正是用钱之际.经人介绍,国内某著名VC答应次日9:30召见. 8点钟出门,平时这段路也就1个小时.一路堵车堵得心头发慌,难道当天的交通都在作对?好在没有迟到,VC的前台还是很不错的,起码比我昨晚梦到的好.梦中前台是:翻着白眼说,"去拿个号吧! ",然后小声地嘀咕,"最近怎么这么多人,都不靠谱". 被领到一个会议室,还拿来几瓶矿泉水.可能是对方考虑到一会儿我们要开始"忽悠",所以先润润嗓子.诶,感觉自己被当成说书的了? 1