Hdspace分布式机构知识库系统的小文件存储
卞艺杰 陈超 李亚冰 陆小亮
机构知识库作为一种新型的学术交流模式和开放获取活动的绿色通道已逐渐成为国内外图书情报界关注的新焦点, 随着机构库的发展其数据规模也在不断扩大, 传统的存储模式已经不能满足日益增长的存储需求. 在对机构库内容存储特点的研究基础上建立基于 HDFS与Dspace 的分布式机构库 Hdspace. 首先提出一种小文件合并生成新的存储文件, 并对文件提出基于学科分类的两级索引, 结合索引预缓存机制提高小文件的读取响应, 为海量小文件存储及后续的信息高效利用提供了一种解决方案, 通过模拟测试显示本模式能够大大提高机构知识库小文件的存储、读取以及检索效率.
Hdspace分布式机构知识库系统的小文件存储
时间: 2024-07-29 21:07:27