基于Hadoop平台的云存储应用实践

云计算(Cloud Computing)是一种基于因特网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云。用户通过电脑、笔记本、手机等方式接人数据中心,按自己的需求进行运算。目前,对于云计算仍没有普遍一致的定义。结合上述定义,可以总结出云计算的一些本质特征,即分布式计算和存储特性、高扩展性、用户友好性、良好的管理性。

1云存储架构图

橘色的作为存储节点(Storage Node)负责存放文件,蓝色作为控制节点((Control Node)则是负责文件索引,并负责监控存储节点间容量及负载的均衡,这两个部分合起来便组成一个云存储。存储节点与控制节点都是单纯的服务器,只是存储节点的硬盘多一些,存储节点服务器不需要具备RAID的功能,只要能安装Linux即可,控制节点为了保护数据,需要有简单的RAID level O1的功能。

云存储不是要取代现有的盘阵,而是为了应付高速成长的数据量与带宽而产生的新形态存储系统,因此云存储在设计时通常会考虑以下三点:

(1)容量、带宽的扩容是否简便

扩容是不能停机,会自动将新的存储节点容量纳入原来的存储池。不需要做繁复的设定。

图1云存储架构图

(2)带宽是否线形增长

使用云存储的客户,很多是考虑未来带宽的增长,因此云存储产品设计的好坏会产生很大的差异,有些十几个节点便达到饱和,这样对未来带宽的扩容就有不利的影响,这一点要事先弄清楚,否则等到发现不符合需求时,已经买了几百TB,后悔就来不及了。

(3)管理是否容易。

2云存储关键技术

云存储必须具备九大要素:①性能;②安全性;③自动ILM存储;④存储访问模式;⑤可用性;⑥主数据保护;⑦次级数据保护;⑧存储的灵活;⑨存储报表。

云计算的发展离不开虚拟化、并行计算、分布式计算等核心技术的发展成熟。下面对其介绍如下:

(1)集群技术、网格技术和分布式文件系统

云存储系统是一个多存储设备、多应用、多服务协同工作的集合体,任何一个单点的存储系统都不是云存储。

既然是由多个存储设备构成的,不同存储设备之间就需要通过集群技术、分布式文件系统和网格计算等技术,实现多个存储设备之间的协同工作,使多个的存 储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。如果没有这些技术的存在,云存储就不可能真正实现,所谓的云存储只能是一个一个的独立 系统,不能形成云状结构。

(2)CDN内容分发、P2P技术、数据压缩技术、重复数据删除技术、数据加密技术

CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。如果云存储中的数据安全得不到保证,也没有人敢用云存储了。

(3)存储虚拟化技术、存储网络化管理技术

云存储中的存储设备数量庞大且分布多在不同地域,如何实现不同厂商、不同型号甚至于不同类型(例如FC存储和IP存储)的多台设备之间的逻辑卷管 理、存储虚拟化管理和多链路冗余管理将会是一个巨大的难题,这个问题得不到解决,存储设备就会是整个云存储系统的性能瓶颈,结构上也无法形成一个整体,而 且还会带来后期容量和性能扩展难等问题。

3部署Hadoop

从历史上看,数据分析软件面对当今的海量数据已显得力不从心,这种局面正在悄然转变。新的海量数据分析引擎已经出现。例如Apache的Hadoop,实践证明,Hadoop在数据处理方面是做得最好的且是开源的平台之一。

云存储中心是由大量服务器构成Hadoop的数据节点((DataNodes),负责保存文件的内容,实现文件的分布式存储、负载平衡以及文件的容错控制。

下面将利用Hadoop作为实验平台,一步一步演示如何部署一个三个节点的集群,并测试一下MapRe-dace分布式处理的强大功能,在Hadoop分布式文件系统(HDFS)中存人两个文件,并采用MapReduce计算出两个namelist文件中各个名字出现的次数,程序架构设计如图2所示。

图2 3个节点的Hadoop集群

其中NameNode主节点和DataNode从节点的分布情况如下:

表1

(1)启动Hadoop集群

只需要在NameNode主节点上执行start-all.sh命令即可,同时Master节点可以通过ssh登录到各,lave节点去启动其他相关进程。

(2) MapRudce测试

在NameNode和DataNode两个结点都运行正常的时候,也就是Hadoop部署成功了之后,我们在NameNode主节点上准备两个名单文件。名单文件的内容如下:

4运行实验及结果

5结语

结果跟我们预期的一样,这样在以Hadoop为平台进行了对HDFS的文件存储,并且统计了文件中数据的数量,然后显示出来。

猜您喜欢:

  1.hadoop伪分布式安装方法

  2.Hadoop读写文件时内部工作机制是怎样的?

  3.Hadoop中的一些基本操作

时间: 2024-12-31 02:27:00

基于Hadoop平台的云存储应用实践的相关文章

基于Hadoop平台的新闻云方案设计

基于Hadoop平台的新闻云方案设计 尚凤军 谈娅 社会进步离不开新闻传播,新闻的传播和共享是提高人类素质的重要方法?为改善新闻的服务水平,采用云计算的先进理念和先进技术,设计了一个新闻云原型平台,为新闻行业提供服务?该平台引入Hadoop作为新闻数据的存储核心,使用Hive数据库解决数据转换和查找,能够完成海量数据的检索?对设计的方案进行了部分测试,达到了设计要求? 基于Hadoop平台的新闻云方案设计

基于Hadoop的云计算与存储平台研究与实现

随着互联网技术的发展,数宇信息正在成指数增加,根据Internet Data Cente:发布的Digital Universe报告显示,在未来8年中所产生的数据量将达到40 ZB,相当于每人产生5200 G的数据,如何高效地计算和存储这些海量数据成为互联网企业所要而对的挑战.传统的大规模数据处理大多采用并行计算.网格计算.分布式高性能计算等,耗费昂贵的存储与 计算资源,而且对于大规模数据计算任务的有效分配和数据合理分割都需要复杂的编程才可以实现.基于Hadoop分布式云平台的出现成为解决此类问

[文档]基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 [下载地址]http://bbs.chinacloud.cn/showtopic-12728.aspx

[文档]基于Hadoop 平台的数据分析方案的设计应用

基于Hadoop 平台的数据分析方案的设计应用 姜文,辛阳,陈林顺 摘要:面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分布式计算的应用成为必然的趋势.其中Hadoop 是应用较多的分布式存储和计算框架之一.本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分析,给出相应Map/Reduce 程序的设计思路和实例,并提出Map/Reduce 分布式程序的部分设计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce 程序设

基于Hadoop 的校园云存储系统的研究

基于Hadoop 的校园云存储系统的研究 高新成, 王莉利 针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点.通过对Hadoop 框架和MapReduce 编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop 框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop 的校园云存储系统. 关键词-Hadoop; MapReduce; 云计算; 分布式计算; 存储模型 temp_1210021608512

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

杰赛科技:一种基于分布式技术的云存储技术

作为近几年兴起的云计算的一大重要组成部分,云存储承担着最底层以服务形式收集.存储和处理数据的任务. 企业用户和个人将数据托管给第三方,通过公有云.私有云或混合云形式对数据进行按需存取操作.云存储的优势主要在于:按需使用,按需付费;无需增加额外的硬件设施或配备专人负责维护,减少管理难度;将数据复制.备份.服务器扩容等工作交由第三方执行;快速部署配置,随时扩展增减,更加灵活可控. 在商业前景方面,以"用户创造内容"和"分享"为精神的Web2.0推动了全网域用户对在线服务

基于HDFS的安全云存储模型

基于HDFS的安全云存储模型 林穗 黄健 姜文超 覃国民 针对基于HDFS的云存储平台对元数据绝对全权管理控制问题,提出元数据自主组织模型ASOM,通过分析DataNode与NameNode之间的交互过程,ASOM设计并实现了元数据子服务,通过提取HDFS中DataNode元数据信息直接跟元数据子服务器交互,并且由元数据子服务器处理文件与块.块与DataNode之间的映射关系.通过对HDFS源代码进行分析编译和模块替换,搭建原型系统进行测试,测试结果表明:对NameNode中的元数据进行必要的安

基于同态加密的云存储系统设计与实现

基于同态加密的云存储系统设计与实现 北京邮电大学  宋丹劼 当保存在云服务器端的密文数据发展到了一定的规模时,对密文数据的有效检索将是一个亟待解决的问题,传统的信息检索技术已经难以满足云存储环境下海量数据检索的需要,云端加密数据的有效检索成为当前亟待解决的重要研究课题之一. 而同态加密方案可以在数据加密的情况下,对密文信息进行统计.分析和检索,而且处理后得到的运算结果也自动加密.因此,为了平衡安全性和服务于云计算的需求,我们引入了同态加密这一概念.通过研究国外最新的同态加密方案,我们设计了一种改