云计算平台上的增量学习研究

云计算平台上的增量学习研究

南京邮电大学 李曼

本文结合传统增量学习算法自身的特点,在深入分析MapReduce框架机制之后,将模块化的集成学习思想融入增量学习的过程中,设计了两种基于云计算平台的增量分类算法。两种算法的Map阶段都是完成相应基分类器的训练,不同的Map任务可以高度并行化地执行。Reduce阶段根据学习环境中是否有概念漂移现象的产生,分别采用分类器组合方式与分类器选择方式对Map阶段的基分类器进行集成,从而分别实现了无概念漂移和有概念漂移环境中快速、高效的增量式数据挖掘任务。在KDD2010、Hyperplane等数据集上的仿真实验说明了所提算法的正确性与可行性。

关键词:增量分类 概念漂移 云计算 Hadoop

[下载地址]:http://bbs.chinacloud.cn/showtopic-13309.aspx

时间: 2024-07-30 10:22:10

云计算平台上的增量学习研究的相关文章

并行高斯消去法在云计算平台上的研究

并行高斯消去法在云计算平台上的研究 潘晓辉 为了解决串行部分选主元的高斯消去算法不能充分利用多核处理器的问题,提出并实现了并行多线程的部分选主元的高斯消去算法,并将整个算法进行了分析和优化,使数据的存储布局和算法的访存模式匹配,从而大幅提高了程序的性能.通过对本地Linux服务器以及美国亚马逊EC2云的多种平台上的实验结果的比较和分析,确定了部分选主元的高斯消去算法受缓存影响较大,所以在CPU和内存/缓存配置较为均衡的平台上运行性能最好.本文展现了一种高效率.扩展性好的多线程并行部分选主元的高斯

云计算平台上实现30年气候资料整编的方法

云计算平台上实现30年气候资料整编的方法 杨润芝  肖卫青  胡开喜  杨昕   王颖  马强 国家气象信息中心存储和保存了50多年宝贵的长序列历史资料,这些历史资料在实时.准实时业务及科研中需要经常被使用并进行气象科学计算.由于历史数据量大,耗时长,如何在短时间内得到所需的计算结果提供用户使用成为本文的主要研究目标.通过搭建云计算平台,并以30年气候资料统计整编研究对象,在云计算平台上基于MapReduce分布式并行计算模型进行多种统计项目.统计方法的算法实现.通过修改云计算平台运行环境参数配

如何架构基于虚拟化技术的云计算平台

随着商业的推崇,云计算如何提高系统性能成为了新的研究课题,针对这些问题,本文主要提出了基于虚拟化技术的云计算平台的架构,研究了平台的服务器云,这是平台的核心所在. 虚拟化技术研究 虚拟化技术,可以把一个物理单元虚拟成多个逻辑单元,这样,一个物理单元就可以运行多个应用.这对于资源使用效率的提高,有着不可估量的作用,并且各种资源的管理也更加方便.目前云计算模式主要分为:私有云.公有云和混合云.无论是哪种云,其目标都是整合资源为客户服务,系统资源具备高性能的处理能力成为了必然要求. 目前,传统处理器的

基于云计算的远程诊断关键技术研究

基于云计算的远程诊断关键技术研究 郑州大学   朱朝鹏 本文针对云计算当中的分布式存储与并行计算技术进行研究.研究Hadoop平台上故障诊断数据的存储管理方案以及基于Map/Reduced的相关智能故障诊断算法的并行计算方式,为在Hadoop或其它云计算平台上开发远程诊断相关应用程序打下一定的基础.基于云计算的远程诊断系统具有灵活性.低成本.高效率等特点,在云计算环境中研究适合于设备远程诊断相关技术的解决方案,可以同时促进云计算以及设备故障诊断技术的进步. 基于云计算的远程诊断关键技术研究

北京第一个公共云计算平台即将诞生

本文讲的是北京第一个公共云计算平台即将诞生,[IT168 专稿]北京第一个公共云计算平台即将诞生!10月13日,北京市计算中心.Platform公司在北京召开新闻发布会,宣布双方达成战略合作,共建联合实验室,大力推进北京云计算平台的建设和发展.据北京市计算中心主任曾宇透露,目前已经投资1000多万元建成计算规模达20万亿次每秒的系统,主要定位于工业计算,支持北京市区域经济发展,预计明年还会启动百万亿次级以上大系统的平台建设. 签约仪式     据了解,云计算平台建设是北京市计算中心与Platfo

目前部署在云平台上最多的五类应用

在完成http://www.aliyun.com/zixun/aggregation/13423.html">云计算平台的建设后,企业应考虑将业务应用逐步部署到云计算平台上.需要指出的是,将业务应用过渡到云计算平台上并不是一夜之间就可以实现的.事实上,不是每项业务应用都应该立刻列为迁移到云计算平台上的候选.从目前云计算的发展来看,不是每项业务应用在云计算平台上都能有很好的效果.例如,云计算平台对于一个工作负载在各个时间非常平均的应用来说,并不能体现出足够的优势.企业用户需要对应用进行评定,

云计算:程序员重回个人英雄时代,国内云计算平台即将搭建运行。

    国内的云计算平台提供商将主要是中国移动.中国电信和中国联通三家运营商.当前,中国移动已经建成1000台服务器.5000个CPU核心.3000TB存储规模的"大云"试验平台.2010年5月21日,中国移动在第二届中国云计算大会上发布了"大云"1.0版本,已实现分布式文件系统.分布式海量数据仓库.分布式计算框架.集群管理.云存储系统.弹性计算系统.并行数据挖掘工具等关键功能.中国移动已经发放了一些试用帐号,相信很快将开放出来给公众使用. 曾几何时,那些耳熟能详的

全球首个企业云计算平台初探

本文讲的是全球首个企业云计算平台初探,[IT168 资讯]作为全球首个企业云计算项目,中化集团借ERP系统全面升级的契机,成功应用了IBM大中华区云计算中心(IBM Cloud Labs & HiPODS)提供的解决方案,将ERP系统部署于跨越两个数据中心的云端.不仅实现了ERP系统升级的平滑过渡,而且使得企业内部的IT基础设施以及各类软件应用未来能够运行得更加灵活. 发布会后,CIOAge记者应邀对中化集团信息技术部总经理彭劲松.IBM大中华区云计算中心(IBM Cloud Labs &

IBM“蓝云"云计算平台应用实例

IBM的"蓝云"计算平台是一套软.硬件平台,将Internet上使用的技术扩展到企业平台上,使得数据中心使用类似于互联网的计算环境."蓝云"大量使用了IBM先进的大规模计算技术,结合了IBM自身的软.硬件系统以及服务技术,支持开放标准与开放源代码软件."蓝云"基于IBM Almaden研究中心的云基础架构,采用了Xen和PowerVM虚拟化软件,Linux操作系统映像以及Hadoop软件(Google File System以及MapReduce