Hadoop分布式文件系统和OpenStack对象存储有何不同

最近在Quora上有人提到一个问题,有关Hadoop分布式文件系统和OpenStack对象存储的不同。

            问题原文如下:

“HDFS (Hadoop分布式文件系统)和OpenStack对象存储(OpenStack Object Storage)似乎都有着相似的目的:实现冗余、快速、联网的存储。什么样的技术特性让这两种系统因而不一样?这两种存储系统最终趋于融合是否大有意义?”

问题提出之后,很快有OpenStack的开发者进行了回复。本文在此摘抄了前两名回复进行翻译,以供各位参考。

            排名第一的答案来自RackSpace的OpenStack Swift开发者Chuck Their:

            虽然HDFS与Openstack对象存储(Swift)之间有着一些相似之处,但是这两种系统的总体设计却大不一样。

1. HDFS使用了中央系统来维护文件元数据(Namenode,名称节点),而在Swift中,元数据呈分布式,跨集群复制。使用一种中央元数据系统对HDFS来说无异于单一故障点,因而扩展到规模非常大的环境显得更困难。

2. Swift在设计时考虑到了多租户架构,而HDFS没有多租户架构这个概念。

3. HDFS针对更庞大的文件作了优化(这是处理数据时通常会出现的情况),Swift被设计成了可以存储任何大小的文件。

4. 在HDFS中,文件写入一次,而且每次只能有一个文件写入;而在Swift中,文件可以写入多次;在并发操作环境下,以最近一次操作为准。

5. HDFS用Java来编写,而Swift用Python来编写。

            另外,HDFS被设计成了可以存储数量中等的大文件,以支持数据处理,而Swift被设计成了一种比较通用的存储解决方案,能够可靠地存储数量非常多的大小不一的文件。

            排名第二的答案来自Joshua McKenty,他是美国宇航局Nebula云计算项目的首席架构师,是OpenStack Nova软件的早期开发者之一,目前是OpenStack项目监管委员会的成员,还是Piston.cc这家基于OpenStack的公司的创始人。

Chuck刚才详细介绍了两者的技术差异,但是没有讨论两者可想而知的融合,OpenStack设计峰会上抛出了融合这个话题。简而言之,HDFS被设计成可以使用Hadoop,跨存储环境里面的对象实现MapReduce处理。对于许多OpenStack公司(包括我自己的公司)来说,支持Swift里面的处理是路线图上面的一个目标,不过不是每个人都认为MapReduce是解决之道。

            我们已讨论过为HDFS编写包装器,这将支持OpenStack内部存储应用编程接口(API),并且让用户可以针对该数据来执行Hadoop查询。还有一个办法就是在Swift里面使用HDFS。但是这些方法似乎没有一个是理想的。

OpenStack社区方面也在开展研究开发方面的一些工作,认真研究其他替代性的MapReduce框架(Riak和CouchDB等)。

            最后,现在有别的一些存储项目,目前“隶属于”OpenStack社区(SheepDog和HC2)。充分利用数据局部性,并且让对象存储变得“更智能”,这是预计会取得进步的一个领域。

时间: 2024-09-28 18:25:19

Hadoop分布式文件系统和OpenStack对象存储有何不同的相关文章

Hadoop分布式文件系统和OpenStack对象存储有何不同?

最近在Quora上有人提到一个问题,有关Hadoop分布式文件系统和OpenStack对象存储的不同. 问题原文如下: "HDFS (Hadoop分布式文件系统)和OpenStack对象存储(OpenStack Object Storage)似乎都有着相似的目的:实现冗余.快速.联网的存储.什么样的技术特性让这两种系统因而不一样?这两种存储系统最终趋于融合是否大有意义?" 问题提出之后,很快有OpenStack的开发者进行了回复.本文在此摘抄了前两名回复进行翻译,以供各位参考. 排名第

cURL操作Openstack对象存储的ReST API详解_OpenStack

 由于最近工作需要使用Openstack ,使用cURL操作Openstack对象存储的ReST API,这是本人找了好多资料完成的,这里记录下. 使用Openstack ,使用cURL操作Openstack对象存储的ReST API      cURL 是一个利用URL语法规定来传输文件和数据的工具,支持很多协议,如HTTP.FTP.TELNET等.本文主要是介绍使用该工具和HTTP协议与swift服务如何交互.cURL允许你从命令行或shell脚本传送和接收HTTP的请求和响应.这使得直接与

干到底--三种存储类型比较-文件、块、对象存储

http://limu713.blog.163.com/blog/static/15086904201222024847744/ http://www.dostor.com/article/2012-12-27/7887715.shtml   块存储和文件存储是我们比较熟悉的两种主流的存储类型,而对象存储(Object-based Storage)是一种新的网络存储架构,基于对象存储技术的设备就是对象存储设备(Object-based Storage Device)简称OSD.        

OpenStack对象存储——Swift开源云计算

OpenStack Object Storage(Swift)是OpenStack开源云计算项目的子项目之一,被称为对象存储,提供了强大的扩展性.冗余和持久性.本文将从架构.原理和实践等几方面讲述Swift. Swift并不是文件系统或者实时的数据存储系统,它称为对象存储,用于永久类型的静态数据的长期存储,这些数据可以检索.调整,必要时进行更新.最适合存储的数据类型的例子是虚拟机镜像.图片存储.邮件存储和存档备份.因为没有中心单元或主控结点,Swift提供了更强的扩展性.冗余和持久性.Swift

大话存储系列7——文件系统和IO处理流程

1.文件系统 在早期的计算机系统中,每个程序都必须自己管理磁盘,在磁盘中放自己的数据,程序需要直接和磁盘控制器打交道.有多少个程序要利用磁盘,就有多少个磁盘交互启动接口. 在没有文件系统的计算机上,如果一个程序要向磁盘上存储一些自己的数据,那么这个程序只能自己调用磁盘控制器启动(无VM的情况下),或者调用VM提供的接口,对磁盘写数据.而写完数据后,很有可能被其他程序的数据覆盖掉.引入文件系统后,各个程序之间都通过文件系统接口访问磁盘,所有被写入的数据都称为一个文件,有着自己的名字,是一个实体.而

HDFS文件系统和对象存储有何不同?

最近在Quora上有人提到一个问题,有关Hadoop分布式文件系统和OpenStack对象存储的不同. 问题原文如下: "HDFS (Hadoop分布式文件系统)和OpenStack对象存储(OpenStack Object Storage)似乎都有着相似的目的:实现冗余.快速.联网的存储.什么样的技术特性让这两种系统因而不一样?这两种存储系统最终趋于融合是否大有意义?" 问题提出之后,很快有OpenStack的开发者进行了回复.本文在此摘抄了前两名回复进行翻译,以供各位参考. 排名第

Scality对象存储添加Hadoop、OpenStack插件

对象存储初创公司Scality将其存储添加到Hadoop,使用户可避免通过Hadoop自己的文件系统加载数据.他们还推出了一款针对Cinder--在OpenStack项目里面的块存储层的插件. RING是基于一组X86服务器节点的对象存储基础架构,存储对象而不是文件或块,而且可以并行操作. Scality提供的一个被称为"生产级Hadoop存储实施"使用了CDMI--由SNIA开发和推广的面向云计算数据管理的云存储标准.CDMI开始缓慢被供应商支持但处于回升的步伐. Scality已经

基于云上分布式NoSQL的海量气象数据存储和查询方案

前言 气象数据是一类典型的大数据,具有数据量大.时效性高.数据种类丰富等特点.气象数据中大量的数据是时空数据,记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量,每天产生的数据量常在几十TB到上百TB的规模,且在爆发性增长.如何存储和高效的查询这些气象数据越来越成为一个难题. 传统的方案常常采用关系型数据库加文件系统的方式实现这类气象数据的存储和实时查询,这种方案在可扩展性.可维护性和性能上都有一些缺陷,随着数据规模的增大缺点越来越明显.最近几年,学界和业界开始不约而同的转向利用分布式N

创建OpenStack的存储云

在转向大规模网络运算中,关键技术如虚拟化,向x86系统迁移和采用快速的DevOps方法已经改变了IT的生态系统.随着存储卷在IT系统中的部署量不断增加,下一个挑战将会是使用最有效的方式来规划和管理计算.存储和网络资源以及向众所周知的私有云提供服务.OPENSTACK内部 OpenStack是一个开源的云平台项目,是由NASA发起,Rackspace在2010作为一个项目进行主导.源代码是由OpenStack基金会管理并在准许Apache许可下发布,Apache许可允许自由分发和修改,但需要保留原