HDFS文件系统和对象存储有何不同?

最近在Quora上有人提到一个问题,有关Hadoop分布式文件系统和OpenStack对象存储的不同。

  问题原文如下:

  “HDFS (Hadoop分布式文件系统)和OpenStack对象存储(OpenStack Object Storage)似乎都有着相似的目的:实现冗余、快速、联网的存储。什么样的技术特性让这两种系统因而不一样?这两种存储系统最终趋于融合是否大有意义?”

  问题提出之后,很快有OpenStack的开发者进行了回复。本文在此摘抄了前两名回复进行翻译,以供各位参考。

  排名第一的答案来自RackSpace的OpenStack ">Swift开发者Chuck Their:

  虽然HDFS与Openstack对象存储(Swift)之间有着一些相似之处,但是这两种系统的总体设计却大不一样。

  1. HDFS使用了中央系统来维护文件元数据(Namenode,名称节点),而在Swift中,元数据呈分布式,跨集群复制。使用一种中央元数据系统对HDFS来说无异于单一故障点,因而扩展到规模非常大的环境显得更困难。

  2. Swift在设计时考虑到了多租户架构,而HDFS没有多租户架构这个概念。

  3. HDFS针对更庞大的文件作了优化(这是处理数据时通常会出现的情况),Swift被设计成了可以存储任何大小的文件。

  4. 在HDFS中,文件写入一次,而且每次只能有一个文件写入;而在Swift中,文件可以写入多次;在并发操作环境下,以最近一次操作为准。

  5. HDFS用Java来编写,而Swift用Python来编写。

  另外,HDFS被设计成了可以存储数量中等的大文件,以支持数据处理,而Swift被设计成了一种比较通用的存储解决方案,能够可靠地存储数量非常多的大小不一的文件。

  排名第二的答案来自Joshua McKenty,他是美国宇航局Nebula云计算项目的首席架构师,是OpenStack Nova软件的早期开发者之一,目前是OpenStack项目监管委员会的成员,还是Piston.cc这家基于OpenStack的公司的创始人。

  Chuck刚才详细介绍了两者的技术差异,但是没有讨论两者可想而知的融合,OpenStack设计峰会上抛出了融合这个话题。简而言之,HDFS被设计成可以使用Hadoop,跨存储环境里面的对象实现MapReduce处理。对于许多OpenStack公司(包括我自己的公司)来说,支持Swift里面的处理是17895.html">路线图上面的一个目标,不过不是每个人都认为MapReduce是解决之道。

  我们已讨论过为HDFS编写包装器,这将支持OpenStack内部存储应用编程接口(API),并且让用户可以针对该数据来执行Hadoop查询。还有一个办法就是在Swift里面使用HDFS。但是这些方法似乎没有一个是理想的。

  OpenStack社区方面也在开展研究开发方面的一些工作,认真研究其他替代性的MapReduce框架(Riak和CouchDB等)。

  最后,现在有别的一些存储项目,目前“隶属于”OpenStack社区(SheepDog和HC2)。充分利用数据局部性,并且让对象存储变得“更智能”,这是预计会取得进步的一个领域。

(责任编辑:蒙遗善)

时间: 2024-10-21 13:44:05

HDFS文件系统和对象存储有何不同?的相关文章

Hadoop分布式文件系统和OpenStack对象存储有何不同?

最近在Quora上有人提到一个问题,有关Hadoop分布式文件系统和OpenStack对象存储的不同. 问题原文如下: "HDFS (Hadoop分布式文件系统)和OpenStack对象存储(OpenStack Object Storage)似乎都有着相似的目的:实现冗余.快速.联网的存储.什么样的技术特性让这两种系统因而不一样?这两种存储系统最终趋于融合是否大有意义?" 问题提出之后,很快有OpenStack的开发者进行了回复.本文在此摘抄了前两名回复进行翻译,以供各位参考. 排名第

Hadoop分布式文件系统和OpenStack对象存储有何不同

最近在Quora上有人提到一个问题,有关Hadoop分布式文件系统和OpenStack对象存储的不同.             问题原文如下: "HDFS (Hadoop分布式文件系统)和OpenStack对象存储(OpenStack Object Storage)似乎都有着相似的目的:实现冗余.快速.联网的存储.什么样的技术特性让这两种系统因而不一样?这两种存储系统最终趋于融合是否大有意义?" 问题提出之后,很快有OpenStack的开发者进行了回复.本文在此摘抄了前两名回复进行翻译

厂商优劣势解析:Gartner分布式文件及对象存储市场魔力象限

Gartner发布了一款分布式文件系统和对象存储魔力象限,前三名提供商分别是Dell EMC.IBM.Scalitu. 这项研究定义了分布式文件系统和对象存储是"提供了对象以及/或者横向扩展文件技术的软件和硬件解决方案,解决非结构化数据增长的需求,是基于'无共享架构的'". 除了前三名的厂商之外,领导者象限没有其他入围厂商了.HDS是唯一一个"挑战者",Red Hat和SwiftStack是唯一一个"远见者". 在这个魔力象限中,有超过半数也就是

对象存储架构所解决的文件遍历问题

在处理庞大的数据集合时,你一定不想要耗费大量系统资源来检索所有的文件才查找得到你想要的信息.对象存储,与其特有的识别符,很大程度上简化了这个过程. 在对象存储体系架构的最底层,所有的数据仍以块存储的形式加以存放.对象存储作为块存储的上层,包含了数据(即包含所存储信息详细描述的元数据)以及独有的识别符,将其封装成为特定的对象.由于对象存储的逻辑结构位于块存储之上,它与下层的硬件层无关,于是便可使用任何x86处理器.内存.磁盘驱动器以及固态闪存,而不需要专属硬件来支持特定的对象存储.事实上,绝大多数

对象存储九大关键特征

 对象存储是一个相对较新并且在持续稳步增长的市场部分.对于新手而言,对象存储用于保存大量非结构化数据,其中每个"对象"实际上是一个没有特定格式的文件(也称二进制文件).实际上,从小的对象(人类可读取文件)到媒体(音频和视频)或其它行业特定格式(石油&天然气,医学成像等),对象存储可以保存任何类型的数据. 与传统存储相比,采用对象存储的好处良多.基于块的系统(例如光纤通道和iSCSI)无法很好地向外扩展,并且没有真正的了解所存储的数据.它们是以低延迟和高粒度提供内容的"

盘点对象存储九大关键点

 有评论表示,对象存储是一个相对新的市场部分,目前继续稳步增长,并有更多值得采用的理由. 对于不了解的人来说,对象存储用于保存大量的非结构化数据,其中每个"对象"本质上是没有特定格式的文件(也称为二进制文件).对象存储可以保存任何类型的数据,从人类可读的小对象文件到媒体(音频和视频)或其他行业特定的格式(石油和天然气,医学成像等). 与传统存储相比,使用对象存储的好处是多方面的.基于块的系统(例如光纤通道和iSCSI)不能很好地向外扩展,并且对存储的数据没有真正的理解.它们是以低延迟和

解读对象存储九大关键特征

对象存储是一个相对较新并且在持续稳步增长的市场部分.对于新手而言,对象存储用于保存大量非结构化数据,其中每个"对象"实际上是一个没有特定格式的文件(也称二进制文件).实际上,从小的对象(人类可读取文件)到媒体(音频和视频)或其它行业特定格式(石油&天然气,医学成像等),对象存储可以保存任何类型的数据. 与传统存储相比,采用对象存储的好处良多.基于块的系统(例如光纤通道和iSCSI)无法很好地向外扩展,并且没有真正的了解所存储的数据.它们是以低延迟和高粒度提供内容的"哑

Scality试图将对象存储转移到磁带和云中

Scality正在开发一款软件定义存储控制器(SDS)以实现对象存储转移到公有云或者使用S3协议的磁带上. 这个想法是要利用策略从本地的Scality RING存储系统中选择那些传送到S3目标的对象.关于这些对象的元数据可以保留在本地以辅助搜索.可以强制实施策略,这样对象就可以保留在地理区域或者国家范围内以符合国家数据存储要求. 我们知道,Scality将支持从S3向Amazon云的转移,用多云方法也可以转移到Google中.Azure也在目标云的支持名单中,但却没有IBM的Bluemix.该S

HDFS 进化,Hadoop 即将拥抱对象存储?

Hortonworks在博客中提出了一个全新的Hadoop对象存储环境--Ozone,能将HDFS从文件系统扩展成更加复杂的企业级存储层. Hadoop社区的一些成员今日提议为Hadoop增加一个新的对象存储环境,这样一来Hadoop就能以与亚马逊S3.微软Azure以及OpenStack Swift等云存储服务一样的方式去存储数据. Hadoop发行商Hortonworks本周二在官网发博文指 出,随着越来越多的企业采用Apache Hadoop,Hadoop已经成了各种企业数据的"数据湖&q