Hdspace分布式机构知识库系统的小文件存储

Hdspace分布式机构知识库系统的小文件存储

卞艺杰 陈超  李亚冰 陆小亮

机构知识库作为一种新型的学术交流模式和开放获取活动的绿色通道已逐渐成为国内外图书情报界关注的新焦点, 随着机构库的发展其数据规模也在不断扩大,  传统的存储模式已经不能满足日益增长的存储需求. 在对机构库内容存储特点的研究基础上建立基于 HDFS与Dspace 的分布式机构库 Hdspace.  首先提出一种小文件合并生成新的存储文件,  并对文件提出基于学科分类的两级索引,  结合索引预缓存机制提高小文件的读取响应, 为海量小文件存储及后续的信息高效利用提供了一种解决方案,  通过模拟测试显示本模式能够大大提高机构知识库小文件的存储、读取以及检索效率.

Hdspace分布式机构知识库系统的小文件存储

时间: 2024-07-29 21:07:27

Hdspace分布式机构知识库系统的小文件存储的相关文章

转 海量小文件存储与Ceph实践

海量小文件存储(简称LOSF,lots of small files)出现后,就一直是业界的难题,众多博文(如[1])对此问题进行了阐述与分析,许多互联网公司也针对自己的具体场景研发了自己的存储方案(如taobao开源的TFS,facebook自主研发的Haystack),还有一些公司在现有开源项目(如hbase,fastdfs,mfs等)基础上做针对性改造优化以满足业务存储需求: 一. 通过对若干分布式存储系统的调研.测试与使用,与其它分布式系统相比,海量小文件存储更侧重于解决两个问题: 1.

基于Hadoop的海量小文件存储方法的研究

基于Hadoop的海量小文件存储方法的研究 时倩 方睿 岳亮 彭榆峰 随着科学技术的发展,各行业及领域需要处理的数据呈爆炸式增长.Hadoop是大文件存储处理的理想平台,但Hadoop在处理海量小文件时的表现并不令人满意.本文首先对HDFS的系统架构作了简要介绍,进而分析了HDFS处理海量小文件时存在的问题,最后介绍了目前国内外对该问题提出的优化方案. 基于Hadoop的海量小文件存储方法的研究

Hadoop上小文件存储处理

Hadoop–小文件存储处理 本篇文章项目是Cloudera论坛中无意中看到的,虽然原文写于2009年,但是当前开来Hadoop的小文件存储方案并没有很好的解决方案,所以感觉作者写的很好,也很详细,于是就抽空翻译了.本次翻译主要针对对Hadoop感兴趣和工作中使用到Hadoop的开发人员提供有价值的中文资料,希望能够对大家的工作和学习有所帮助. 由于我英语水平有限,部分翻译虽能了解其大意,但是却没法很好的表达出来,所以有些地方翻译的不是很好.同时也由于能力见识有限,翻译过程中难免出现个人的主观或

基于Hadoop的云盘系统客户端技术难点之三 小文件存储优化

作者:张子良 版权所有,转载请注明出处. 一.概述 首先明确概念,这里的小文件是指小于HDFS系统Block大小的文件(默认64M),如果使用HDFS存储大量的小文件,将会是一场灾难,这取决于HDFS的实现机制和框架结构,每一个存储在HDFS中的文件.目录和块映射为一个对象存储在NameNode服务器内存中,通常占用150个字节.如果有1千万个文件,就需要消耗大约3G的内存空间.如果是10亿个文件呢,简直不可想象.这里需要特别说明的是,每一个小于Block大小的文件,存储是实际占用的存储空间仍然

TaoCloud与红帽发布XDFS-Pro分布式文件存储

   大道云行科技与红帽在京正式签署战略合作协议,并发布内嵌红帽Gluster企业版的XDFS-Pro分布式文件存储系统.双方将围绕红帽Gluster企业版软件.虚拟化软件.云管理平台的销售.交付.服务及培训认证进行深入合作,共同提升双方在各自业务领域内的竞争力,为用户构建更为弹性.高效.经济的软件定义数据中心基础架构. 随着云计算和大数据的飞速发展,弹性.高效.持续可用已成为现代IT架构的基本要求. TaoCloud与红帽双方携手,整合最新的云计算.软件定义数据中心相关产品和技术,共同致力于为

基于小文件的内存云存储优化策略

基于小文件的内存云存储优化策略 英昌甜 于炯 鲁亮 刘建矿 由于内存云RAMCloud采用日志段的方式存储数据,因此当大量小文件存储于RAMCloud集群时,每个小文件独占整个段,会产生较多的段内碎片,从而导致内存的有效利用率较低以及大量的内存空间浪费.为了解决这个问题,提出基于文件分类的RAMCloud小文件存储优化策略.该策略首先根据文件的相关特性将小文件分为结构相关文件.逻辑相关文件以及相互独立文件三类;然后在存储时对结构相关的文件使用文件合并算法,逻辑相关和相互独立的小文件则使用分组算法

一种提高云存储中小文件存储效率的方案

针对基于HDFS的云存储系统中小文件存储效率不高的问题,采用序列文件技术设计了一个云存储系统中小文件的处理方案.该方案利用多维属性决策理论,综合读文件时间.合并文件时间及节省内存空间大小等指标,得出合并小文件的最优方式,能够在消耗的时间和节省的内存空间之间取得平衡:设计基于层次分析法的系统负载预测算法对系统负载进行预测,从而实现负载均衡的目的:利用序列文件技术对小文件进行合并. 实验结果表明,在不影响存储系统运行状况的基础上,该方案提高了HDFS(Hadoop distributed file

构建高可用MFS分布式文件存储架构

现在有大量的企业采用共享存储服务器NFS的方式,来对应用数据进行网络存储,但这存在性能瓶颈和单点故障的问题,于是分布式文件存储管理系统开始流行起来.其优点是不言而喻的,本文为大家推荐了开源的分布式文件系统MFS,与NFS相比它是一种多对多的关系,这样一来,性能大幅提升,同时可靠性也高了许多!相信对大家有所帮助. 大家都知道,目前MFS元数据服务器存在单点问题,因此我们可以通过DRBD提供磁盘及时同步,通过HeartBeat提供Failover,来达到高可用. 相信DRBD大家都有了解过,DRBD

MongoDB 是一个基于分布式文件存储的数据库

MongoDB 是一个基于分布式文件存储的数据库,旨在为 WEB 应用提供可扩展的高性能数据存储解决方案.MongoDB 的发展势头十分迅猛,自成立以来每年的销售收入和员工数量均实现翻番. 据彭博社报道,非关系式数据库初创企业 MongoDB 在最新一轮的融资中获得了 1.5 亿美元的 VC 资金,其估值也已达到 12 亿美元. MongoDB 是一种对象式数据库,据介绍,在非关系式数据库中,这种数据库是功能最丰富.最像关系数据库的一种: MongoDB 是一个基于分布式文件存储的数据库,旨在为