HDFS 进化,Hadoop 即将拥抱对象存储?

Hortonworks在博客中提出了一个全新的Hadoop对象存储环境——Ozone,能将HDFS从文件系统扩展成更加复杂的企业级存储层。

Hadoop社区的一些成员今日提议为Hadoop增加一个新的对象存储环境,这样一来Hadoop就能以与亚马逊S3、微软Azure以及OpenStack Swift等云存储服务一样的方式去存储数据。

Hadoop发行商Hortonworks本周二在官网发博文指 出,随着越来越多的企业采用Apache Hadoop,Hadoop已经成了各种企业数据的“数据湖”(Data Lake),其中很多适合大数据分析应用的数据类型非常适合采用HDFS,但是在某些行业应用案例中HDFS又难以胜任,这就需要扩展Hadoop的存储 维度。例如,对象存储或Key-Value存储具备Hadoop HDFS的可靠性、一致性和可用性,但对语法、API和可扩展性的要求不同,Hadoop的存储系统需要向多面手进化,以适应新的存储应用需求。

Hortonworks在博客中提出了一个全新的Hadoop对象存储环境——Ozone,能将HDFS从文件系统扩展成更加复杂的企业级存储层。 (编者按:虽然Hadoop已经支持第三方对象数据存储,例如亚马逊S3云和数据中心里的OpenStack Swift,但是Hadoop原生的对象存储功能对于希望将Hadoop作为未来应用存储层的开发者来说依然非常有价值。)

过去,HDFS架构将元数据管理与数据存储层分离成两个相互独立的层。文件数据存储在包含有上千个存储服务器(节点)的存储层,而元数据存储在文件 元数据层——一个数量相对少些的服务器群(名称节点)。HDFS这种分离方式使得应用直接从存储磁盘读写数据时能够获得很高的吞吐量扩展空间。

Ozone使得HDFS块存储层能够进一步支持非文件性质的系统数据,而HDFS的文件块架构也将能够支持存储键值和对象。与HDFS的名称空间元 数据类似,Ozone的元数据系统也基于块存储层,但是Ozone的元数据将被动态分配,支持大量的bucket space。(上图)

Hortonworks认为HDFS将自然进化成一个完整的企业大数据存储系统,而Ozone也将以Apache项目(HDFS-7240)的方式开源。

Hortonworks给Ozone规划了以下几个目标:

  • 可扩展支持数以万亿的数据对象。
  • 广泛支持各种对象大小,从几KB到几十兆。
  • 保证不低于HDFS的可靠性、一致性和可用性。
  • 基于HDFS的数据块层。
  • 提供基于REST的API来访问和操作数据。
  • 为获取更高的可用性,能支持数据中心间的数据复制。

文章转载自 开源中国社区 [http://www.oschina.net]

时间: 2024-09-27 15:45:14

HDFS 进化,Hadoop 即将拥抱对象存储?的相关文章

9个理由告诉你对象存储为什么这样火!

         可扩展性.性能和低成本都是采纳对象存储背后的动因,但是企业会考虑这种技术的原因不止这些. 不比从前,对象存储如今获得广泛的企业采用.从合规需求到扩展性以及预算限制,对象存储以其独特优势成功替代了传统文件存储.以下是企业采纳对象存储技术的9大理由: 理由1:非结构数据的增长 根据IDC,非结构性数据的年复合增长率约为62%.对象存储被认为是处理大量非结构性数据的有效资源. 理由2:可扩展性 对象存储能够扩展数十至数百EB的可用容量,并且也没有更大容量的扩展限制.它能够充分利用高密

HDFS文件系统和对象存储有何不同?

最近在Quora上有人提到一个问题,有关Hadoop分布式文件系统和OpenStack对象存储的不同. 问题原文如下: "HDFS (Hadoop分布式文件系统)和OpenStack对象存储(OpenStack Object Storage)似乎都有着相似的目的:实现冗余.快速.联网的存储.什么样的技术特性让这两种系统因而不一样?这两种存储系统最终趋于融合是否大有意义?" 问题提出之后,很快有OpenStack的开发者进行了回复.本文在此摘抄了前两名回复进行翻译,以供各位参考. 排名第

Hadoop分布式文件系统和OpenStack对象存储有何不同?

最近在Quora上有人提到一个问题,有关Hadoop分布式文件系统和OpenStack对象存储的不同. 问题原文如下: "HDFS (Hadoop分布式文件系统)和OpenStack对象存储(OpenStack Object Storage)似乎都有着相似的目的:实现冗余.快速.联网的存储.什么样的技术特性让这两种系统因而不一样?这两种存储系统最终趋于融合是否大有意义?" 问题提出之后,很快有OpenStack的开发者进行了回复.本文在此摘抄了前两名回复进行翻译,以供各位参考. 排名第

Hadoop分布式文件系统和OpenStack对象存储有何不同

最近在Quora上有人提到一个问题,有关Hadoop分布式文件系统和OpenStack对象存储的不同.             问题原文如下: "HDFS (Hadoop分布式文件系统)和OpenStack对象存储(OpenStack Object Storage)似乎都有着相似的目的:实现冗余.快速.联网的存储.什么样的技术特性让这两种系统因而不一样?这两种存储系统最终趋于融合是否大有意义?" 问题提出之后,很快有OpenStack的开发者进行了回复.本文在此摘抄了前两名回复进行翻译

Scality对象存储添加Hadoop、OpenStack插件

对象存储初创公司Scality将其存储添加到Hadoop,使用户可避免通过Hadoop自己的文件系统加载数据.他们还推出了一款针对Cinder--在OpenStack项目里面的块存储层的插件. RING是基于一组X86服务器节点的对象存储基础架构,存储对象而不是文件或块,而且可以并行操作. Scality提供的一个被称为"生产级Hadoop存储实施"使用了CDMI--由SNIA开发和推广的面向云计算数据管理的云存储标准.CDMI开始缓慢被供应商支持但处于回升的步伐. Scality已经

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析   低成本的Blob存储是一个强大的,通用的Hadoop兼容Azure存储解决方案无缝集成HDInsight.通过Hadoop分布式文件系统(HDFS)接口,完整的组件集合在HDInsight可以 在Blob存储数据的直接操作.在本教程中,学习如何建立一个容器的Blob存储,然后在里面处理的数据. 在BLOB存储中存储的数据能够用于计算的HDInsight集群被安全地删除,而不会丢失用户数据. 注意: 该ASV://语法中不

对象存储的兴起

在本文中,作者斯科特·辛克莱尔将为广大读者诸君分析对象存储存在于当今的数字化市场的必要性,同时,还将为您重点介绍Cleversafe公司的解决方案.斯科特·辛克莱尔撰写了关于对象存储的理想使用案例,并介绍了购买这种技术时需要考虑的相关要素.他认为,Cleversafe公司的对象存储解决了归档/内容存储库.归档合规性.内容分发.数据湖/hub枢纽.备份目标.协同和企业内部部署云的使用案例等一系列问题.最终得出的结论是,对象存储为"数据的保护和规模化提供了一个相当卓越的方法",建议客户保持

对象存储的发展历程揭秘

背景介绍: 硅谷多家技术公司顾问Philippe Nicolas贴出了一张有趣的对象存储发展历程图片,利用数据表细化出内容寻址存储(CAS)即对象存储的发展历程. 该图表汇总了多家企业不同产品的起源,X轴代表时间线,Y轴则为企业,项目和产品名称,并作出评论和分析. 和很多创新一样,这个图表充分说明,几乎所有的系统都来自小型厂商.其它IT细分市场是如此,存储亦是如此,即便后者始终与硬件和基础设施相关. 图表中蓝色星标代表一些网络巨头发表的重要论文.这些论文引起了一连串适用于超大规模环境的对象存储方

对象存储架构所解决的文件遍历问题

在处理庞大的数据集合时,你一定不想要耗费大量系统资源来检索所有的文件才查找得到你想要的信息.对象存储,与其特有的识别符,很大程度上简化了这个过程. 在对象存储体系架构的最底层,所有的数据仍以块存储的形式加以存放.对象存储作为块存储的上层,包含了数据(即包含所存储信息详细描述的元数据)以及独有的识别符,将其封装成为特定的对象.由于对象存储的逻辑结构位于块存储之上,它与下层的硬件层无关,于是便可使用任何x86处理器.内存.磁盘驱动器以及固态闪存,而不需要专属硬件来支持特定的对象存储.事实上,绝大多数