基于云计算的并行K-means气象数据挖掘研究与应用

基于云计算的并行K-means气象数据挖掘研究与应用

南京信息工程大学   潘吴斌

聚类分析是数据挖掘中的一个重要研究领域,它将数据划分成若干个聚类,使得在同一聚类中的对象比较相似,而不同聚类中的对象差别很大。K-means算法被认为是最经典的基于划分的聚类方法,常采用误差平方和准则函数作为聚类准则,该算法在处理数据集上相对可伸缩且高效率。但面对大规模数据时,运算量也随之增加,运算所需的资源和时间耗费明显增大。为了突破这个瓶颈,通过分析和研究得知,与传统的并行计算模型相比,MapReduce分布式计算模型封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一个简单而强大的编程接口,极大的简化了并行程序设计的难度,采用MapReduce进行并行程序开发时,用户只需关注于自身要解决的并行计算任务。因此,利用Hadoop平台处理海量数据的优势,提出了一种改进的算法,在Hadoop平台上实现K-means算法的MapReduce并行化。最后,通过聚类结果的有效性、加速比以及可扩展性对基于MapReduce的并行K-means算法进行评估。

基于云计算的并行K-means气象数据挖掘研究与应用

时间: 2024-10-25 03:34:20

基于云计算的并行K-means气象数据挖掘研究与应用的相关文章

基于云计算平台的随机森林算法的研究与实现

基于云计算平台的随机森林算法的研究与实现 于延  王建华 随着网络时代海量数据的日渐普及,从中挖掘出有价值的信息成为当今社会的研究热点.本文针对构建随机森林的数据挖掘算法,提出了基于海量数据的分布式可扩展随机森林算法.该算法基于MapReduce分布式计算模型,可以高效地分析.处理海量数据,并且能够准确地对数据进行分类预测.大量的实验结果表明,本文提出的算法具有很好的可扩展性及高效性. 基于云计算平台的随机森林算法的研究与实现

基于Hadoop的并行共享决策树挖掘算法研究

基于Hadoop的并行共享决策树挖掘算法研究 陈湘涛    张超   韩茜 共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物.针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT).该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT).该算法采用混合数据结构,在计算分裂指标阶段使用属性袁结构,在

基于云计算的信息系统数据采集分析系统的研究与设计

基于云计算的信息系统数据采集分析系统的研究与设计 李东辉 方方 吴小志 朱广新 茹萌 从云计算三个层次的服务模式出发,提出了一种基于云计算平台的分布式并行信息系统数据采集分析系统.首先,通过Hadoop云计算平台提供的分布式文件系统提升数据的存取速度,增强系统的容错性.在此基础上,利用MapReduce编程模型并行化数据流系综分类算法,提高数据的分类挖掘效率.最后,采用Web Service技术构建了SOA服务体系架构,从而整合了技术平台.测试结果表明,检测系统运行高效,并且检测精度高,具有一定

基于云计算的数据查找与加密方案研究

基于云计算的数据查找与加密方案研究 于延,王建华,孙惠杰 云计算环境下的数据查找与加密技术是目前的研究热点.针对现有方案的不足,本文提出了一种改进的数据查找与加密方案.在数据查找方面,本文首先建立了身份管理模型,然后提出了基于权限的身份鉴别算法来实现从系统资源到身份数量之间的最优指派:在数据加密方面,提出了一种可计算加密方案 CES,该方案能支持云数据的模糊检索和基本算术运算,有效地对用户的敏感数据进行隐私保护.仿真实验结果表明,本文的方案是有效的,在加.解密性能以及存储与通信开销等方面要优于传

基于云计算的PC数据同步备份的研究与实现

基于云计算的PC数据同步备份的研究与实现 吴毓     陈军华 为了更好地保证数据安全性.完整性及方便数据的异地管理,从本地数据库和个人数据角度出发,以数据备份为重点,利用微软云端数据库管理系统SQL Azure和应用程序开发工具Visual Studio,设计并实现了基于微软Windows Azure云环境下的PC数据同步备份系统,并借此平台发布和部署了该系统的Web门户网站.实验测试表明:相比于其他非云环境下的数据备份方法,该系统在移动性.操作性和数据管理等方面具有一定的优势和研究价值. 基

基于云计算的云采购成本结构优势研究

基于云计算的云采购成本结构优势研究 林国龙  黄莉  丁一  姚锦元 将云计算运用到采购中,构建云采购平台,并且将云采购与传统采购模式进行成本比较.通过采购成本模型的建立与分析,认为云采购模式在成本上具有较大的优势.依托云安全技术,云采购在信息的传递准确率以及时间上有绝对的优势,同时云采购平台对虚拟资源的智能分配可使采购方删除大量无价值采购环节.最后通过算例对所提出的理论进行验证,表明云采购具有较大的优势,特别是对中小型企业,在面临自建企业信息平台时,云平台无疑是一个较好的选择. 基于云计算的云

基于云计算的数字取证关键技术的研究与实现

基于云计算的数字取证关键技术的研究与实现 吉林大学 谢珍真 本文将云计算技术引入到以网络流量为目标的数字取证问题中,首先对云计算的背景知识和数字取证的背景知识进行了概要介绍,并着重描述了Hadoop2.2的优势,以及选择这一版本作为基础平台的原因:其次对map-reduce和yarn架构进行了阐述,给出了基于云计算的网络流量数字取证模型,并对前人提出的分布式SVM算法进行了总结,以之前的算法作为基础,提出了一种改进后分布式SVM算法作为网络流量算法,经过实验验证了其有效性和准确性,并给出了实验过

基于云计算数据集成模式的矿井瓦斯预警研究

基于云计算数据集成模式的矿井瓦斯预警研究 西安科技大学  张杰 矿井瓦斯一直是我国煤矿主要的灾害形式之一,并严重困扰着煤矿的安全生产.研究矿井日常检/监测数据的有效处理及其预测预警应用,有利于拓展安全监测监控系统的功能,是提高瓦斯灾害预警能力的重要手段.本论文在分析矿井瓦斯检/监测数据特征及其集成管控模式的基础上,深入研究了基于云计算数据集成模式下的矿井瓦斯预警分析理论和方法. 研究了矿井瓦斯检/监测数据的特点及其集成管控模式.分析了瓦斯检/监测数据的特征,并对于环境.人为.管理等因素影响下存在

[文档]三网融合下基于云计算的实时转码技术的研究和应用

三网融合下基于云计算的实时转码技术的研究和应用 包盛  段保通  邵锋军 本文将探讨三网融合下视频内容的实时转码技术,通过该技术实现视频内容的在线实时转换和匹配,使得转换后的视频内容能够在各类终端上进行播放,同时基于云计算技术,搭建实时转码服务平台,为各类终端用户提供易用.开放.快速高效的融合视频服务. 关键词: 三网融合 实时转码 云计算    temp_12051107496046.pdf