[文档]基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

[下载地址]http://bbs.chinacloud.cn/showtopic-12728.aspx

时间: 2024-07-31 08:26:17

[文档]基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云的相关文章

[文档]基于Hadoop 平台的数据分析方案的设计应用

基于Hadoop 平台的数据分析方案的设计应用 姜文,辛阳,陈林顺 摘要:面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分布式计算的应用成为必然的趋势.其中Hadoop 是应用较多的分布式存储和计算框架之一.本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分析,给出相应Map/Reduce 程序的设计思路和实例,并提出Map/Reduce 分布式程序的部分设计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce 程序设

基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现 厦门大学 梁世磊 本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率.首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法

[文档]基于Hadoop/Hive的web日志分析系统的设计

基于Hadoop/Hive的web日志分析系统的设计 刘永增,张晓景,李先毅 利用Hadoop.Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度.通过与单机实验的对比,证明系统是有效的和有价值的. 关键词:web日志:云计算:Hadoop:Hive [下载地址]http://bbs.chinacloud.cn/showtopic-12968.aspx

[文档]基于云计算平台的EPC中间件系统

基于云计算平台的EPC中间件系统 张巍  王宁  卢苗 摘要:当前,物联网越来越受到各方的关注,正从一个概念逐步进入"落地"阶段,电信运营商应该立足于自身的优势,借助物联网的机遇在产业链中占据更加重要的位置.本文通过分析现有物联网的体系结构,结合运营商的资源优势,提出一种基于云计算平台的EPC中间件系统,解决了系统中存在的不足,也为运营商提供了一种控制物联网产业链核心的思路. 关键词--互联网 EPC中间件 云计算    temp_12050514389967.pdf

基于Hadoop平台的分布式ETL研究与实现

基于Hadoop平台的分布式ETL研究与实现 东华大学  何刚 本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计.分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架.第二,事实并行处理的研究.从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法.实验结果表明,与Hive数据仓库相比,两种算法在并

基于Hadoop平台的大数据分析关键技术标准化探讨

基于Hadoop平台的大数据分析关键技术标准化探讨 高洪  杨庆平  黄震江 分析基于Hadoop平台的大数据分析关键技术面临的标准化问题,从数据采集.并行计算框架.分析结果输出.并行数据分析算法四个方面进行标准化的分析和调研,提出包含架构模型等四个方面的标准化方向以及相关API等方面的标准化建议. 关键词--大数据分析: 计算框架: 并行分析算法: Hadoop 基于Hadoop平台的大数据分析关键技术标准化探讨

基于Hadoop平台的新闻云方案设计

基于Hadoop平台的新闻云方案设计 尚凤军 谈娅 社会进步离不开新闻传播,新闻的传播和共享是提高人类素质的重要方法?为改善新闻的服务水平,采用云计算的先进理念和先进技术,设计了一个新闻云原型平台,为新闻行业提供服务?该平台引入Hadoop作为新闻数据的存储核心,使用Hive数据库解决数据转换和查找,能够完成海量数据的检索?对设计的方案进行了部分测试,达到了设计要求? 基于Hadoop平台的新闻云方案设计

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

基于Hadoop平台的教育资源库建设

基于Hadoop平台的教育资源库建设 闫娟  耿凯峰  刘丽 首先介绍了云计算的相关概念,其次阐述了当前教育资源库建设的现状以及存在的问题,进而提出基于Hadoop平台的教育资源库建设方案,最后详细介绍了其核心模块的实现过程. 下载地址:http://bbs.chinacloud.cn/showtopic-18404.aspx