面向HDFS的批量文件存储性能的研究与优化

面向HDFS的批量文件存储性能的研究与优化

南京师范大学苏义超

本文的主要工作及创新点如下： 1,在研读HDFS系统源代码的基础上,介绍了HDFS典型操作流程和后台管理工作,剖析了HDFS中元数据架构体系和通信机制,讨论了HDFS系统在批量文件处理时面临的一些问题和缺陷。 2,针对批量文件存储时存在的问题,重构了批量文件存储的机制和读写流程。在写入批量用户文件时,Client客户端将批量文件合并成一个组文件,并且创建用户文件、数据片段、组文件、数据块之间的映射元数据,然后将组文件和相关元数据都存储到HDFS中；在读取批量用户文件时,Client客户端首先获取用户文件的元数据,其次按照存储位置对数据片段进行分类,然后按类向DataNode发出数据读取请求,获得所有数据片断,最后将数据片段组装成用户所求的文件。 3,在批量文件存储优化的基础上,提出了将NameNode节点中容易分离的元数据迁移存储到Redis服务器节点的方法,实现“元数据分布,访问分布”,以此来进一步降低NameNode节点的内存消耗和访问负载。 4,对于以上的优化方案,在HDFS开源系统上做了编程实现,并进行了实验测试,实验结果验证了优化策略的有效性。

面向HDFS的批量文件存储性能的研究与优化

时间： 2024-11-08 17:23:15

面向HDFS的批量文件存储性能的研究与优化的相关文章

基于Hadoop的海量小文件存储方法的研究

基于Hadoop的海量小文件存储方法的研究时倩方睿岳亮彭榆峰随着科学技术的发展,各行业及领域需要处理的数据呈爆炸式增长.Hadoop是大文件存储处理的理想平台,但Hadoop在处理海量小文件时的表现并不令人满意.本文首先对HDFS的系统架构作了简要介绍,进而分析了HDFS处理海量小文件时存在的问题,最后介绍了目前国内外对该问题提出的优化方案. 基于Hadoop的海量小文件存储方法的研究

一种提高云存储中小文件存储效率的方案

针对基于HDFS的云存储系统中小文件存储效率不高的问题,采用序列文件技术设计了一个云存储系统中小文件的处理方案.该方案利用多维属性决策理论,综合读文件时间.合并文件时间及节省内存空间大小等指标,得出合并小文件的最优方式,能够在消耗的时间和节省的内存空间之间取得平衡:设计基于层次分析法的系统负载预测算法对系统负载进行预测,从而实现负载均衡的目的:利用序列文件技术对小文件进行合并. 实验结果表明,在不影响存储系统运行状况的基础上,该方案提高了HDFS(Hadoop distributed file

阿里云NAS文件存储：性能型、容量型、NAS Plus如何选

阿里云NAS文件存储:性能型.容量型.NAS Plus如何选? 阿里云文件存储(Network Attached Storage,简称NAS)是面向阿里云ECS实例.HPC和Docker的文件存储服务,提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展.单一命名空间.多共享.高可靠和高可用等特性的分布式文件系统. 为了满足用户业务对NAS文件存储的各种需求,阿里云NAS文件系统目前有3种类型可供用户选择,他们分别是: 性能型容量型 NAS Plus 如上图所示

Pure公司发布机架规模FlashBlade对象与文件存储方案

FlashBlade为Pure Storage公司的机架规模闪存系统,其采用多种协议以访问非结构化数据,同时也是市场上第一套基于对象的全闪存非结构化数据存储系统. 不过其机架规模与EMC的DSSD机架规模闪存系统有所区别,后者主要面向延迟敏感型结构化数据. 其属于现有FlashArray//m方案的补充性产品--FlasshArray//m主要面向结构化数据,且与EMC的XtremIO阵列属于同代产品. FlashBlade设计方案在4U空间内使用15台同侧排列刀片,且该设备能够通过向外扩展实现

阿里云文件存储SMB协议服务及其申请和使用指南

阿里云于2016年发布了支持NFS网络文件系统访问协议的阿里云文件存储.2017年3月,又增加了SMB文件系统访问协议的支持,正式对外公测.本文简单描述了SMB文件存储访问协议以及阿里云SMB协议公测功能,并简单介绍了该服务的使用场景,以及公测申请和使用流程. 一.SMB文件系统访问协议简介网络文件系统NAS(NAS-Network Area Storage),将本地的存储空间共享给其他主机使用, 通过 C/S 架构实现文件级别的共享,多个客户端计算机可以并发访问同一个文件系统.常见的 NAS

【文件存储NAS】数据迁移工具介绍及使用指南

一.简介文件存储NAS是面向阿里云ECS.HPC.Docker等计算节点的共享文件存储服务,具备简单易用.多共享.高性能.安全等特性,目前支持NFSv3和NFSv4协议.NAS的推出极大丰富了阿里云存储产品线,为用户存储上云提供了更加多样的选择. 与其他存储产品(主要是对象存储和块存储)及自建NAS相比,阿里云文件存储NAS具备鲜明的特点: 文件存储NAS 对象存储(如OSS.七牛.S3等) 块存储(如阿里云磁盘.AWS EBS等) 自己搭建NAS 标准协议(标准NFS协议.标

（转载）Kafka文件存储机制那些事

转自<Kafka文件存储机制那些事>,by美团点评技术团队,地址:http://tech.meituan.com/kafka-fs-design-theory.html 分析的很不错,转载下来! Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志.访问日志,消息服务等等,Linkedin于20

分布式文件存储的数据库——Mongodb

什么是mongodb MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案. MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的.他支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型.Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引

如何才能有效的降低文件存储所需要的成本投入呢?

文件存储的成本问题一直是企业IT管理员们探讨的问题,要如何才能有效的降低文件存储所需要的成本投入呢?年以来,企业组织已经面临着数据呈指数级数的增长,他们不断的购买更多的存储容量来支持这一增长,而在经济放缓的预期之下,企业组织仍然不会受到其影响而减少创建的内容和对数据保存的需要.因此,需要存储的数据将继续增加,而预算将被进一步缩减,这显然是一种不协调的状态.如果有更多的数据话,那么就需要更多的钱来购买容量,这是肯定的事情.在开支紧缩的情况下,企业组织于是就开始寻求以更少的成本并同时能满足需求的方案

猜你喜欢

php重大发现！:)

最近到处查找php+xml的示例,今天忽然发现在phpinfo()竟然也使用了xml,而且写得还很好!<html xmlns:v="urn:schemas-microsoft-com: ...

建立自由的会计日期的报表--1.1.认识几个有关时间的函数

1.认识几个有关时间的函数 1.Cdate(日期表达式) 将日期表达式转换成日期类型的数据. 日期表达式是任何可以解释成日期的表达式,包含日期文字,可以看作日期的字符串以及从函数返回的日期. 比如:m ...

AJAX入门之使用for实现反射机制

ajax 什么是反射机制反射机制指的是程序在运行时能够获取自身的信息.例如一个对象能够在运行时知道自己有哪些方法和属性. 在JavaScript中利用for(-in-)语句实现反射在JavaScr ...

PHP简单防刷计数器

计数器 <?phprequire_once('config.php');function counter(){ session_start(); $sql="select count ...

软件看门狗：别让你的程序没有响应

一．概述一些重要的程序,必须让它一直跑着:而且还要时时关心它的状态--不能让它出现死锁现象.当然,如果一个主程序会出现死锁,肯定是设计或者编程上的失误.我们首要做的事是,把这个Bug揪出来.但如果时 ...

UVa 140 Bandwidth：枚举全排列&amp;剪枝搜索

140 - Bandwidth Time limit: 3.000 seconds http://uva.onlinejudge.org/index.php?option=com_onlinejudg ...

报表应用系列——图表JFreeChart: 第2章柱状图

2.1. 简单柱状图首先为柱状图准备数据,柱状图必须使用CategoryDataset,这里我们使用DefaultCategoryDataset. DefaultCategoryDataset da ...

《WCF技术内幕》33：第2部分_第6章_通道：通道形状

通道形状介绍通道形状是我们对通道进行分类的重要依据之一.概念上,一个通道形状对应于一个或多个消息交换模式(MEPs),第3章"消息交换模式.拓扑与编排"里曾经讨论过这个概念. ...

如何在Dreamweaver中制作复杂交换图像

今天给大家介绍的是在Dreamweaver中制作出一列7个按钮的图片,并且在这一列的按钮图片的前面加上一个指针,我们要实现的效果是当我们在将鼠标移向某一个按钮图片的时候,这个按钮上面的文字变换颜色 ...

”私人订制”输入尽在搜狗手机输入法

看过<私人订制>的朋友,一定还记得愿望规划师杨重.情境设计师小白.梦境重建师小璐与心灵麻醉师马青四人组成的公司"私人订制",以"替他人圆梦"为自 ...

解析php类的注册与自动加载

本篇文章是对php类的注册与自动加载进行了详细的分析介绍,需要的朋友参考下工程目录如下: 1.将需要注册的类放在一个数组中复制代码代码如下: <?php final class Uti ...

wangEditor编辑器失去焦点后仍然可以在原位置插入图片

本文给大家带来的是一款非常不错的富文本编辑器WangEditor,他最大的特点是它在ie6,7,8上都可以做到失去焦点后仍然可以在原位置插入图片,而且代码量很少,下面我们就来分析下他是如何实现的呢 ...

Windows系统文件出现乱码该怎么办？

百度知道知友提出问题:为什么我的计算机系统文件显示乱码?我计算机的Win7系统是英文版的,但下载.安装了中文语言包后,下载到电脑里的中文软件还是显示乱码.如何解决Windows系统文件乱码的问题呢 ...

Win8如何删除搜索痕迹

Win8删除搜索痕迹的方法如下: Windows 8 系统的搜索功能非常强大,也很智能,在搜索资料后,在搜索栏中会留下记录,这样就有可能会泄露个人隐私,因此搜索后,最好不要保留搜索记录,以免留下后 ...

WindowsXP系统CPU使用率100%解决办法

经常出现CPU占用100%的情况,主要问题可能发生在下面的某些方面: CPU占用率高的九种可能 1.防杀毒软件造成故障由于新版的KV.金山.瑞星都加入了对网页.插件.邮件的随机监控,无疑增大了系 ...

设计模式-深入理解各种代理模式（2）通俗代码版

3>多代理模式:提高或增强代理的其他业务,如:拦截.过滤等 public interface IGamePlayer { //登录游戏public void login(String user, ...

oc-ios初学者求助，在线等

问题描述 ios初学者求助,在线等控制台没输出啊,是主函数没运行吗?! 解决方案截图吧这图片太模糊了解决方案二: iOS初学者解决方案三: 你自己明明写着如果相等返回NO, 这5和5相等,当 ...

path-Android 绘画时如何根据笔触压力设置笔宽？

问题描述 Android 绘画时如何根据笔触压力设置笔宽? 现在已有思路为拿到压力值和路径,用drawPath (Path path, Paint paint) 方法实现, 但是效果非常粗糙,线条也不 ...

网站建设过程中失败的原因分析

俗语说得好,万事开头难,做网站也是如此,网站最大的障碍在于起步,任何新手应该有做站坚持半年以上的心里准备,去从事事业过程中,被拒绝后应如何处理,这里有七个致命的"陷阱": 1.不肯 ...

Linux和Window下生成以年月日时分秒为名称的文件。

Windows BAT批处理文件: 复制代码代码如下: @echo off set time_hh=%time:~0,2% if /i %time_hh% LSS 10 (set time_hh=0 ...

形状上下文matlab 怎么建立匹配图像数据库？

问题描述形状上下文matlab 怎么建立匹配图像数据库? 形状上下文matlab 怎么建立匹配模型数据库?想要通过形状上下文来识别一系列图像,用形状上下文,可能实现嘛?

如何把”U盘“盘符和“USB端口”对应起来

问题描述通过DriveInfo.GetDrives()可以得到盘符,但是找不到如何把"U盘"盘符和"USB端口"对应起来. 解决方案解决方案二:没看懂你想干 ...

我和Netty的故事

本文首发于InfoQ架构师杂志. 还在上学的时候,我特别好奇QQ是怎么实现的,为什么我一发消息我的好友马上就能收到且基本没有延迟,它的原理是什么?大三的时候,我学习了Java语言,接触到了Socket ...

市场需求分析存储网络SAN的扩展形势

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; SAN是一个专有的.集中管理的信息基础结构,它支持服务 ...

Linux 利用 expect 进行 scp 自动同步文件

现在有一个这样的需求: 执行一个脚本,自动从指定服务器上全量拉取指定目录的文件,远程服务器的用户名.端口.密码.目录配置在执行的shell脚本中. 要实现这样的需求,我们使用scp 来实现,但是scp ...

RabbitMQ 2.6.0 RC 3 发布，AMQP 消息服务器

RabbitMQ 2.6.0 RC 3 发布,此版本主要改进: Lazy queues Much better queue synchronisation throughput Lower RAM u ...

显示-android listview 问题

问题描述 android listview 问题我有连个Activity在MainActivity中listview显示所有数据,还有一个FilterActivity这是一个过滤条件我在过滤条件中 ...

私募认为金融地产将继续领跑

经过8个月的强势上涨,上证综指昨日越过3000点这一重要的心理关口,从1664点的最低点算起,大盘本轮上涨的幅度已经超过了80%.A股市场是否已经高处不胜寒?哪些板块将在"后3000点时代& ...

ASP.NET中日历控件和JS版日历控件的使用方法（第5节）_实用技巧

今天小编带大家以做任务的形式了解ASP.NET中日历控件的使用方法,主要任务内容: 1.添加一个日历,设置日期以蓝色的完整名称显示,周末以黄色背景红色文字显示,而当前日期使用绿色背景显示,用户可以选择 ...

winform dev pivotgridcontrol报表列显示转换问题

问题描述 PivotGridFielditem7=newPivotGridField();item7.Area=DevExpress.XtraPivotGrid.PivotArea.DataArea; ...

热搜

© 2024 iVAN | info#iamivan.net | 12 q. 0.026 s.