[文档]基于Hadoop 平台的数据分析方案的设计应用

基于Hadoop 平台的数据分析方案的设计应用

姜文,辛阳,陈林顺

摘要:面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分布式计算的应用成为必然的趋势。其中Hadoop 是应用较多的分布式存储和计算框架之一。本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分析,给出相应Map/Reduce 程序的设计思路和实例,并提出Map/Reduce 分布式程序的部分设计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce 程序设计、有效提高程序性能。

关键词:分布式计算;Map/Reduce;文本处理;数据分析

temp_12042716011861.pdf

时间: 2024-08-30 17:26:32

[文档]基于Hadoop 平台的数据分析方案的设计应用的相关文章

[文档]基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 [下载地址]http://bbs.chinacloud.cn/showtopic-12728.aspx

[文档]基于Hadoop/Hive的web日志分析系统的设计

基于Hadoop/Hive的web日志分析系统的设计 刘永增,张晓景,李先毅 利用Hadoop.Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度.通过与单机实验的对比,证明系统是有效的和有价值的. 关键词:web日志:云计算:Hadoop:Hive [下载地址]http://bbs.chinacloud.cn/showtopic-12968.aspx

[文档]基于云计算平台的EPC中间件系统

基于云计算平台的EPC中间件系统 张巍  王宁  卢苗 摘要:当前,物联网越来越受到各方的关注,正从一个概念逐步进入"落地"阶段,电信运营商应该立足于自身的优势,借助物联网的机遇在产业链中占据更加重要的位置.本文通过分析现有物联网的体系结构,结合运营商的资源优势,提出一种基于云计算平台的EPC中间件系统,解决了系统中存在的不足,也为运营商提供了一种控制物联网产业链核心的思路. 关键词--互联网 EPC中间件 云计算    temp_12050514389967.pdf

基于Hadoop平台的大数据分析关键技术标准化探讨

基于Hadoop平台的大数据分析关键技术标准化探讨 高洪  杨庆平  黄震江 分析基于Hadoop平台的大数据分析关键技术面临的标准化问题,从数据采集.并行计算框架.分析结果输出.并行数据分析算法四个方面进行标准化的分析和调研,提出包含架构模型等四个方面的标准化方向以及相关API等方面的标准化建议. 关键词--大数据分析: 计算框架: 并行分析算法: Hadoop 基于Hadoop平台的大数据分析关键技术标准化探讨

爱数签约国家文化部共建文档云共享平台

    日前,爱数成功签约中华人民共和国文化部,为其提供基于云盘体验的企业级文档云共享平台,从而可以安全.高效.可管理地维护办公过程中产生的大量非结构化数据,使得数据管理.移动办公和共享协作能力得到高效提升. 客户及环境介绍: 中华人民共和国文化部(以下简称文化部)是中国文化行政的最高机构,是国务院的职能部门,在国务院领导下管理全国文化艺术事业,是中华人民共和国国务院负责文化.艺术事业的组成部门. 该客户办公过程中产生大量文档,包括文本文件.格式化的文档.数据表单.演示文稿.图片.照片.网页.设

基于Hadoop平台的新闻云方案设计

基于Hadoop平台的新闻云方案设计 尚凤军 谈娅 社会进步离不开新闻传播,新闻的传播和共享是提高人类素质的重要方法?为改善新闻的服务水平,采用云计算的先进理念和先进技术,设计了一个新闻云原型平台,为新闻行业提供服务?该平台引入Hadoop作为新闻数据的存储核心,使用Hive数据库解决数据转换和查找,能够完成海量数据的检索?对设计的方案进行了部分测试,达到了设计要求? 基于Hadoop平台的新闻云方案设计

基于Hadoop平台的教育资源库建设

基于Hadoop平台的教育资源库建设 闫娟  耿凯峰  刘丽 首先介绍了云计算的相关概念,其次阐述了当前教育资源库建设的现状以及存在的问题,进而提出基于Hadoop平台的教育资源库建设方案,最后详细介绍了其核心模块的实现过程. 下载地址:http://bbs.chinacloud.cn/showtopic-18404.aspx

AMAX发布基于OCP平台的CloudMax方案

本文讲的是<strong>AMAX发布基于OCP平台的CloudMax方案,</strong>AMAX中国成为国内首家具备OCP整体方案设计.生产能力于一体的解决方案提供商 AMAX于上月美国圣荷西举行的2014年开放计算峰会上面向全球客户同步发布基于开放计算项目(OCP)设计的CloudMax数据中心及云计算解决方案.会上AMAX还于IO Data Centers,世界智能数据中心领导企业,同步发布了数据中心推荐设计方案.随着此次全球范围的产品发布,AMAX中国成为国内首家具备设

基于Hadoop平台的分布式ETL研究与实现

基于Hadoop平台的分布式ETL研究与实现 东华大学  何刚 本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计.分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架.第二,事实并行处理的研究.从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法.实验结果表明,与Hive数据仓库相比,两种算法在并