面向HDFS的批量文件存储性能的研究与优化

面向HDFS的批量文件存储性能的研究与优化

南京师范大学  苏义超

本文的主要工作及创新点如下: 1,在研读HDFS系统源代码的基础上,介绍了HDFS典型操作流程和后台管理工作,剖析了HDFS中元数据架构体系和通信机制,讨论了HDFS系统在批量文件处理时面临的一些问题和缺陷。 2,针对批量文件存储时存在的问题,重构了批量文件存储的机制和读写流程。在写入批量用户文件时,Client客户端将批量文件合并成一个组文件,并且创建用户文件、数据片段、组文件、数据块之间的映射元数据,然后将组文件和相关元数据都存储到HDFS中;在读取批量用户文件时,Client客户端首先获取用户文件的元数据,其次按照存储位置对数据片段进行分类,然后按类向DataNode发出数据读取请求,获得所有数据片断,最后将数据片段组装成用户所求的文件。 3,在批量文件存储优化的基础上,提出了将NameNode节点中容易分离的元数据迁移存储到Redis服务器节点的方法,实现“元数据分布,访问分布”,以此来进一步降低NameNode节点的内存消耗和访问负载。 4,对于以上的优化方案,在HDFS开源系统上做了编程实现,并进行了实验测试,实验结果验证了优化策略的有效性。

面向HDFS的批量文件存储性能的研究与优化

时间: 2024-11-08 17:23:15

面向HDFS的批量文件存储性能的研究与优化的相关文章

基于Hadoop的海量小文件存储方法的研究

基于Hadoop的海量小文件存储方法的研究 时倩 方睿 岳亮 彭榆峰 随着科学技术的发展,各行业及领域需要处理的数据呈爆炸式增长.Hadoop是大文件存储处理的理想平台,但Hadoop在处理海量小文件时的表现并不令人满意.本文首先对HDFS的系统架构作了简要介绍,进而分析了HDFS处理海量小文件时存在的问题,最后介绍了目前国内外对该问题提出的优化方案. 基于Hadoop的海量小文件存储方法的研究

一种提高云存储中小文件存储效率的方案

针对基于HDFS的云存储系统中小文件存储效率不高的问题,采用序列文件技术设计了一个云存储系统中小文件的处理方案.该方案利用多维属性决策理论,综合读文件时间.合并文件时间及节省内存空间大小等指标,得出合并小文件的最优方式,能够在消耗的时间和节省的内存空间之间取得平衡:设计基于层次分析法的系统负载预测算法对系统负载进行预测,从而实现负载均衡的目的:利用序列文件技术对小文件进行合并. 实验结果表明,在不影响存储系统运行状况的基础上,该方案提高了HDFS(Hadoop distributed file

阿里云NAS文件存储:性能型、容量型、NAS Plus如何选

阿里云NAS文件存储:性能型.容量型.NAS Plus如何选? 阿里云文件存储(Network Attached Storage,简称NAS)是面向阿里云ECS实例.HPC和Docker的文件存储服务,提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展.单一命名空间.多共享.高可靠和高可用等特性的分布式文件系统. 为了满足用户业务对NAS文件存储的各种需求,阿里云NAS文件系统目前有3种类型可供用户选择,他们分别是: 性能型 容量型 NAS Plus 如上图所示

Pure公司发布机架规模FlashBlade对象与文件存储方案

FlashBlade为Pure Storage公司的机架规模闪存系统,其采用多种协议以访问非结构化数据,同时也是市场上第一套基于对象的全闪存非结构化数据存储系统. 不过其机架规模与EMC的DSSD机架规模闪存系统有所区别,后者主要面向延迟敏感型结构化数据. 其属于现有FlashArray//m方案的补充性产品--FlasshArray//m主要面向结构化数据,且与EMC的XtremIO阵列属于同代产品. FlashBlade设计方案在4U空间内使用15台同侧排列刀片,且该设备能够通过向外扩展实现

阿里云文件存储SMB协议服务及其申请和使用指南

阿里云于2016年发布了支持NFS网络文件系统访问协议的阿里云文件存储.2017年3月,又增加了SMB文件系统访问协议的支持,正式对外公测.本文简单描述了SMB文件存储访问协议以及阿里云SMB协议公测功能,并简单介绍了该服务的使用场景,以及公测申请和使用流程. 一.SMB文件系统访问协议简介 网络文件系统NAS(NAS-Network Area Storage),将本地的存储空间共享给其他主机使用, 通过 C/S 架构实现文件级别的共享,多个客户端计算机可以并发访问同一个文件系统.常见的 NAS

【文件存储NAS】数据迁移工具介绍及使用指南

一.简介     文件存储NAS是面向阿里云ECS.HPC.Docker等计算节点的共享文件存储服务,具备简单易用.多共享.高性能.安全等特性,目前支持NFSv3和NFSv4协议.NAS的推出极大丰富了阿里云存储产品线,为用户存储上云提供了更加多样的选择.     与其他存储产品(主要是对象存储和块存储)及自建NAS相比,阿里云文件存储NAS具备鲜明的特点: 文件存储NAS 对象存储(如OSS.七牛.S3等) 块存储(如阿里云磁盘.AWS EBS等) 自己搭建NAS 标准协议(标准NFS协议.标

(转载)Kafka文件存储机制那些事

        转自<Kafka文件存储机制那些事>,by美团点评技术团队,地址:http://tech.meituan.com/kafka-fs-design-theory.html         分析的很不错,转载下来!          Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志.访问日志,消息服务等等,Linkedin于20

分布式文件存储的数据库——Mongodb

什么是mongodb MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案. MongoDB是一个介于关系数据库和 非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的.他支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型.Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引

如何才能有效的降低文件存储所需要的成本投入呢?

文件存储的成本问题一直是企业IT管理员们探讨的问题,要如何才能有效的降低文件存储所需要的成本投入呢?年以来,企业组织已经面临着数据呈指数级数的增长,他们不断的购买更多的存储容量来支持这一增长,而在经济放缓的预期之下,企业组织仍然不会受到其影响而减少创建的内容和对数据保存的需要.因此,需要存储的数据将继续增加,而预算将被进一步缩减,这显然是一种不协调的状态.如果有更多的数据话,那么就需要更多的钱来购买容量,这是肯定的事情.在开支紧缩的情况下,企业组织于是就开始寻求以更少的成本并同时能满足需求的方案