基于HDFS的分布式存储研究与实现

基于HDFS的分布式存储研究与实现

电子科技大学 舒康

本文深入分析了 HDFS 的结构和运行机制,指出了其部分设计缺陷,针对HDFS的副本策略进行改进,主要工作如下:
  
(1) HDFS默认的静态副本冗余策略并不能区分热点数据,导致存放这些数据的节点成为集群的一个瓶颈。针对这一问题,本文提出了一种基于数据热度的动态冗余策略。该策略统计并预测每个文件的访问情况,并且每个文件的统计周期随其访问频率的变化而变化,这样能快速反映出数据热度的趋势,及时增加或减少副本。使用该策略能加快系统响应速度,提高集群的吞吐量,减少作业时间。
  
(2) HDFS没有考虑DataNode的异构性,如果性能差的节点存放了更多的数据,那么读取、处理数据时低性能节点需要承担更多的负载,闲置了高性能节点的处理能力,负载分配不均衡。针对这一问题,本文提出了一种基于节点性能评价和网络距离的放置策略。首先提供一个接口让用户自定义节点状态信息并配置其权重,然后使用改进的TOPSIS算法评价节点,最后综合网络距离选择节点放置副本。该策略允许用户自行设置关注点,并且在此基础上均衡各节点的负载,提高系统整体性能。
  
(3) 进行大量仿真和实验,并且基于改进的HDFS集群开发了C/S模型的云存储系统,用HDFS默认策略对比本文的改进策略,实验证明本文的改进策略能较好地提升集群性能。

基于HDFS的分布式存储研究与实现

时间: 2024-11-05 22:58:42

基于HDFS的分布式存储研究与实现的相关文章

基于 HDFS管理 MapGIS K9瓦片地图集的研究与实现

基于 HDFS管理 MapGIS K9瓦片地图集的研究与实现 万波  党琦  杨林 关系型数据库在管理海量空间数据时遇到诸多瓶颈,HDFS(Hadoop Distributed Filesystem)通过将大数据分割为多个小数据块,并将其分别存储在多个数据节点组成的分布式集群中,成为一种新的存储海量空间数据的方法.使用HDFS作为平台,利用数据结构类型MapFile设计一种管理MapGIS K9瓦片地图集的方式,并进行实验.实验表明用HDFS管理海量瓦片地图比传统方式管理更易扩展,更加安全,效率

基于HDFS的云存储安全技术研究

基于HDFS的云存储安全技术研究 余琦 凌捷 针对目前云存储技术存在的数据泄露和数据篡改等安全问题,结 合HDFS数据完整性校验机制的特点,设计并实现了一种基于HDFS的数据传输存储安全技术方案.对用户上传至HDFS中的数据文件实施AES加密,文件 以密文形式存储,同时应用RSA算法保障AES密钥的安全,可有效防止数据在传输和存储过程中被泄露.设计了基于HDFS的文件密文和文件明文两种存储格 式,用户可自主选择是否进行加密.通过安全性分析和性能测试,验证了方案的安全性和可行性. 基于HDFS的云

基于HDFS的云计算安全技术研究与实现

基于HDFS的云计算安全技术研究与实现 广东工业大学  郭圣昌 本文创新点如下:(1)基于IBE算法原理,设计HDFS下DataNode对Client访问的身份认证安全机制,以弥补原有HDFS架构下Client访问DataNode未曾认证的缺陷,使得恶意或者仿冒用户无法在不经过主服务器NameNode的情况下窃取DataNode上的私人数据,保证了数据安全.同时,采用类IBE算法原理,摒弃了第三方可信机构,私钥由客户端Client自主产生,减少了因密钥生成.分发和存储带来的密钥管理复杂性,简化了

云平台下HDFS HA的研究与实现

云平台下HDFS HA的研究与实现 西北大学 王刚 本文针对上述存在的问题,进行了深入的研究.详细分析了NameNode单点故障的原因,并研究了现有方案的设计思想,同时对将Hadoop移植到现有云平台中的可行性进行了分析,提出了基于虚拟化平台下NameNode的高可用性方案.该方案从两个方面保证了NameNode的高可用性.一方面,实现了一种基于NameNode宿主机负载的迁移策略,当宿主机的负载过大时,该策略实现将NameNode实时迁移到一个合适的宿主机上,保证了NameNode提供不间断的

基于多相检测方法研究酿造微生物群落关键技术的开发与应用

从四川省科技厅获悉,四川省郫县http://www.aliyun.com/zixun/aggregation/537.html" style="line-height: 1.6;">豆瓣股份有限公司与四川大学等多家单位共同完成的"基于多相检测方法研究酿造微生物群落关键技术的开发与应用"项目,获得了"2011年四川省科技进步一等奖".此项成果的取得为公司在2012年实现销售收入3亿元的奋斗目标和今后冲刺资本市场增加了新的筹码. 据从

基于Hadoop的调度算法研究与实现

基于Hadoop的调度算法研究与实现 西南交通大学 李曌 鉴于Hadoop内置的调度算法不能满足有效区分CPU密集型和I/O密集型两种类型的作业并且作业需要在特定的时间之前完成的需求.本文提出一种区分作业类型的基于截止时间的调度算法(Type Specific and Deadline Based Algorithm in Hadoop, TSD).本算法包含两部分:将用户提交的作业分为CPU密集型作业和I/O密集型作业的预测机制:根据用户设置的最后完成期限而设置优先级的基于截止时间的调度算法.

[文档]基于HDFS的云数据备份系统

基于HDFS的云数据备份系统 郭东,杜勇,胡亮 将云计算技术应用于数据备份领域,设计并实现了基于分布式文件系统(HDFS)的云数据备份系统.该系统利用云存储技术,应用已有的廉价计算机设备构建数据备份集群,解决了用户数据备份/恢复业务的需要,通过用户分群管理.小文件合并上传.恢复优先等策略进一步提高了系统性能.实验结果表明,云备份系统在安全性.可扩展性.经济性及可靠性上均具有一定的优势. 关键词:云计算:云存储:数据备份系统 [下载地址]http://bbs.chinacloud.cn/showt

基于HDFS的安全云存储模型

基于HDFS的安全云存储模型 林穗 黄健 姜文超 覃国民 针对基于HDFS的云存储平台对元数据绝对全权管理控制问题,提出元数据自主组织模型ASOM,通过分析DataNode与NameNode之间的交互过程,ASOM设计并实现了元数据子服务,通过提取HDFS中DataNode元数据信息直接跟元数据子服务器交互,并且由元数据子服务器处理文件与块.块与DataNode之间的映射关系.通过对HDFS源代码进行分析编译和模块替换,搭建原型系统进行测试,测试结果表明:对NameNode中的元数据进行必要的安

基于MapReduce数字图像处理研究

基于MapReduce数字图像处理研究 田进华 张韧志 随着海量图像数据的增加,使得需要处理的数据规模越来越大,为了解决在处理海量数据信息时所面临的存取容量和处理速度的问题,在深入研究MapReduce大规模数据集分布式计算模型的基础之上,本文设计了基于MapReduce实现对数字图像并行化处理.实验结果表明:运行在Hadoop集群上的基于MapReduce并行化算法具有数据节点规模易扩展.处理速度快.安全性高.容易实现等特点,能够较好地满足海量数据图像的处理的要求. 基于MapReduce数字