基于云计算的并行K-means气象数据挖掘研究与应用
南京信息工程大学 潘吴斌
聚类分析是数据挖掘中的一个重要研究领域,它将数据划分成若干个聚类,使得在同一聚类中的对象比较相似,而不同聚类中的对象差别很大。K-means算法被认为是最经典的基于划分的聚类方法,常采用误差平方和准则函数作为聚类准则,该算法在处理数据集上相对可伸缩且高效率。但面对大规模数据时,运算量也随之增加,运算所需的资源和时间耗费明显增大。为了突破这个瓶颈,通过分析和研究得知,与传统的并行计算模型相比,MapReduce分布式计算模型封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一个简单而强大的编程接口,极大的简化了并行程序设计的难度,采用MapReduce进行并行程序开发时,用户只需关注于自身要解决的并行计算任务。因此,利用Hadoop平台处理海量数据的优势,提出了一种改进的算法,在Hadoop平台上实现K-means算法的MapReduce并行化。最后,通过聚类结果的有效性、加速比以及可扩展性对基于MapReduce的并行K-means算法进行评估。
基于云计算的并行K-means气象数据挖掘研究与应用
时间: 2024-10-25 03:34:20