基于Hadoop的多星表存储与交叉证认的设计与实现

基于Hadoop的多星表存储与交叉证认的设计与实现

山东大学 张夏旭

面对海量天文数据,如何高效的存储和对多星表进行交叉证认显得尤为重要。海量天文数据处理必须要使用分布式、并行计算等大数据处理技术才能有效解决。本文对利用Hadoop处理海量天文数据进行了研究,主要工作分为以下三部分: 1.利用Hadoop的HBase组件,构建对不同星表数据的有效存储,提高集群磁盘利用率和星表信息查询效率。 2.在对HEALPix和HTM两种伪二维球面索引方法进行研究的基础上,结合Hadoop实现多个星表之间高效的交叉证认。 3.将交叉证认结果存储在Hadoop中,方便用户对交叉证认结果的下载和根据指定信息对要查询结果的下载。 本文结合Hadoop实现了对海量天文数据的存储和多星表间的交叉证认,有效的提高了星表数据的存储和交叉证认效率,对今后解决同类海量天文数据的处理应用有重要的参考价值。

基于Hadoop的多星表存储与交叉证认的设计与实现

时间: 2024-09-19 03:55:52

基于Hadoop的多星表存储与交叉证认的设计与实现的相关文章

基于Hadoop的云计算与存储平台研究与实现

随着互联网技术的发展,数宇信息正在成指数增加,根据Internet Data Cente:发布的Digital Universe报告显示,在未来8年中所产生的数据量将达到40 ZB,相当于每人产生5200 G的数据,如何高效地计算和存储这些海量数据成为互联网企业所要而对的挑战.传统的大规模数据处理大多采用并行计算.网格计算.分布式高性能计算等,耗费昂贵的存储与 计算资源,而且对于大规模数据计算任务的有效分配和数据合理分割都需要复杂的编程才可以实现.基于Hadoop分布式云平台的出现成为解决此类问

基于Hadoop的海量小型XML数据文件处理技术的设计和实现

基于Hadoop的海量小型XML数据文件处理技术的设计和实现 西安电子科技大学 孔鑫 本文重点研究了如下内容:1)设计了专门针对海量小数据XML文件进行处理的分布式海量小型XML数据处理系统(Distributed Massive SmallXML files system,DMSX),该系统的主要思想就是将海量小数据XML文件在Hadoop系统中高效的进行处理.2)该系统通过运用生产者-消费模式,多线程并发技术,多级缓存技术等,来提高系统的整体处理能力.3)该系统通过对合并后的文件进行分段存储

基于Hadoop平台的云存储应用实践

云计算(Cloud Computing)是一种基于因特网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云.用户通过电脑.笔记本.手机等方式接人数据中心,按自己的需求进行运算.目前,对于云计算仍没有普遍一致的定义.结合上述定义,可以总结出云计算的一些本质特征,即分布式计算和存储特性.高扩展性.用户友好性.良好的管理性. 1云存储架构图 橘色的作为存储节点(Storage Node)负责存放文件,蓝色作为控制节点((Control Node)则是负责文件索引,并负责监控存储

基于Hadoop 的校园云存储系统的研究

基于Hadoop 的校园云存储系统的研究 高新成, 王莉利 针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点.通过对Hadoop 框架和MapReduce 编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop 框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop 的校园云存储系统. 关键词-Hadoop; MapReduce; 云计算; 分布式计算; 存储模型 temp_1210021608512

基于Hadoop的广域测量系统数据处理

基于Hadoop的广域测量系统数据处理 曲朝阳: 朱莉: 张士林 为解决目前广域测量系统(WAMS)海量数据处理中存在的数据冗余.处理效率低等问题,设计并实现了一个基于Hadoop的WAMS数据处理云计算平台.首先,给出了平台的体系结构.其次,设计了基于Hadoop分布式文件系统(HDFS)存储的WAMS海量数据加载方法和利用MapReduce模型实现多个文件数据的并行抽取.转换和加载(ETL)操作流程.提出了结合MapReduce的MPApriori数据挖掘算法,用于高效地挖掘出连锁故障时各站

基于Hadoop的汽车后市场商品数据平台设计

基于Hadoop的汽车后市场商品数据平台设计 华南理工大学 李石清 首先对Hadoop及相关技术进行研究,分析了Hadoop与云计算的联系,并着重介绍了Hadoop的HDFS分布式系统和MapReduce编程架构.对HDFS的特性.数据块抽象技术.和HDFS的Master-Slave(管理者-工作者)模式进行深入研究,对MapReduce的特性和架构模式也进行了相应的研究.另外根据商品数据非结构化的特点,还着重分析了MongoDB非结构化数据库的特性和工作方式.随后根据项目的详细需求分析结果和H

基于Hadoop的OA期刊论文资源发现及采集方法

基于Hadoop的OA期刊论文资源发现及采集方法 燕山大学  杜宝瑞 互联网上大量OA期刊论文资源属于深层Web(DeepWeb)资源,传统的搜索引擎不能对其有效地建立索引,用户在检索时很难得到期望的OA期刊论文资源.解决该问题的一条有效途径就是实现互联网上OA期刊论文资源的集成整合,并为用户提供一个统一.透明的检索服务接口,而OA期刊论文资源的发现和采集则是其重要环节.针对海量OA期刊论文资源的处理,分布式存储和并行机制可大大提高其效率.基于Hadoop的分布式文件系统(HDFS)和并行机制(

基于Hadoop的视频摘要的设计与实现

基于Hadoop的视频摘要的设计与实现 华南理工大学 彭华聪 本文意图利用云计算技术将目前主流的基于运动过程的动态视频摘要技术由单机提取模式改造成分布式模式.从而在面对数据膨胀时,仅仅通过加入廉价的计算节点来提高视频摘要的提取速率,使得视频摘要技术能更好的投入实际生产中.首先,对云计算技术和视频摘要技术进行了大量的研究.选取了合适的开源云计算平台Hadoop分布式系统,并对Hadoop分布式系统与处理视频摘要的相关机制进行了分析.在视频摘要技术方面,概述了视频摘要技术的总体状况,详细介绍了基于运

基于Hadoop的海量小文件存储方法的研究

基于Hadoop的海量小文件存储方法的研究 时倩 方睿 岳亮 彭榆峰 随着科学技术的发展,各行业及领域需要处理的数据呈爆炸式增长.Hadoop是大文件存储处理的理想平台,但Hadoop在处理海量小文件时的表现并不令人满意.本文首先对HDFS的系统架构作了简要介绍,进而分析了HDFS处理海量小文件时存在的问题,最后介绍了目前国内外对该问题提出的优化方案. 基于Hadoop的海量小文件存储方法的研究