基于Hadoop平台的大数据分析关键技术标准化探讨

基于Hadoop平台的大数据分析关键技术标准化探讨

高洪  杨庆平  黄震江

分析基于Hadoop平台的大数据分析关键技术面临的标准化问题,从数据采集、并行计算框架、分析结果输出、并行数据分析算法四个方面进行标准化的分析和调研,提出包含架构模型等四个方面的标准化方向以及相关API等方面的标准化建议。

关键词——大数据分析; 计算框架; 并行分析算法; Hadoop

基于Hadoop平台的大数据分析关键技术标准化探讨

时间: 2024-09-17 01:20:42

基于Hadoop平台的大数据分析关键技术标准化探讨的相关文章

SAS将提供基于Hadoop的开创性大数据分析技术

全球领先的商业分析软件与服务供应商SAS公司正在开发一种基于SAS内存分析技术,并适用于开源框架Hadoop的交互式分析编程环境.新软件通过更快地挖掘大数据获取更精确商业洞察,帮助企业提升盈利.降低风险.增进对客户的了解以及创造更多商业成功的机会. SAS?In-MemoryStatisticsforHadoop能够让多用户同时并交互地管理.挖掘和分析数据,建立和比对模型,以及对Hadoop框架内的海量数据进行评分.Hadoop开源框架被广泛认为是大数据未来发展方向.SAS软件将在2014年上半

[文档]基于Hadoop 平台的数据分析方案的设计应用

基于Hadoop 平台的数据分析方案的设计应用 姜文,辛阳,陈林顺 摘要:面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分布式计算的应用成为必然的趋势.其中Hadoop 是应用较多的分布式存储和计算框架之一.本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分析,给出相应Map/Reduce 程序的设计思路和实例,并提出Map/Reduce 分布式程序的部分设计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce 程序设

中国信通院重磅发布大数据关键技术专利态势报告(全文38页下载)

序言 2016年4月27日至28日,由工业和信息化部指导.中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开.在27日大数据技术与产品创新分论坛中,中国信息通信研究院知识产权中心副主任张俊霞女士来给我们做<大数据关键技术专利态势报告>的分享. 中国IDC圈4月27日报道,互联网的发展使得大数据引起人们广泛关注.现如今大数据技术早已渗透到金融.通讯等行业以及生物学.物理学等领域.大数据在容量.多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理

大数据关键技术解析

大数据技术,就是从各种类型的数据中快速获得有价值信息的技术.大数据领域已经涌现出了大量新的技术,它们成为大数据采集.存储.处理和呈现的有力武器. 大数据处理关键技术一般包括:大数据采集.大数据预处理.大数据存储及管理.大数据分析及挖掘.大数据展现和应用(大数据检索.大数据可视化.大数据应用.大数据安全等). 一.大数据采集技术 数据采集是指通过RFID射频数据.传感器数据.社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化.半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识

基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现 厦门大学 梁世磊 本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率.首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法

一种基于FPGA云存储架构的关键技术研究

一种基于FPGA云存储架构的关键技术研究 云南大学  陈成 目前常见的云存储服务有:亚马逊的Simple Storage Service(S3).Nutanix的存储服务.搜狐企业网盘.百度云盘等等,而这些并不提供小型开发板所需的云服务.本系统则是以TCP/IP做为基本通信手段,并且加入自定义的数据通信协议,通过整合分布式存储的调度思想,来实现基于FPGA的云存储架构.这样不仅使FPGA开发板能够实现云存储的功能,同时也为基于FPGA的云计算打下了坚实的基础. 本系统利用集群以及分布式的思想,将

基于Hadoop平台的新闻云方案设计

基于Hadoop平台的新闻云方案设计 尚凤军 谈娅 社会进步离不开新闻传播,新闻的传播和共享是提高人类素质的重要方法?为改善新闻的服务水平,采用云计算的先进理念和先进技术,设计了一个新闻云原型平台,为新闻行业提供服务?该平台引入Hadoop作为新闻数据的存储核心,使用Hive数据库解决数据转换和查找,能够完成海量数据的检索?对设计的方案进行了部分测试,达到了设计要求? 基于Hadoop平台的新闻云方案设计

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

云环境中的移动文件存储和时空数据分析关键技术研究

云环境中的移动文件存储和时空数据分析关键技术研究 国防科学技术大学  毛华坚 本文的研究工作和创新点如下:(1)提出了一种基于文件系统的异构云存储服务无缝统一访问方法Wukong.目前不同的云存储服务访问接口各异,由于缺乏无缝访问多种云存储服务的统一接口,时空数据应用不能够不加修改地直接访问和使用后端云存储数据.文件系统是被应用程序广泛支持的一种数据使用接口,以文件系统接口封装各种云存储服务可以保证应用程序对异构云存储服务的直接访问.本文首次提出了一种基于文件系统的异构云存储服务无缝统一访问方法