基于Hadoop的K-Medoids聚类算法实现与优化
华东师范大学 蒋耀斌
本文结合K-Medoids算法的特点与Hadoop平台的优势,借鉴Mahout开源项目中已经实现的并行K-Means聚类算法的实现方案,提出了一种基于MapReduce的并行聚类算法HK-Medoids,大幅提升传统聚类算法的运算速率。另外,为了进一步提高聚类效率,本文从完善MapReduce调度、采取抽样方法、预设聚类初值中心点和优化数据源等方面对HK-Medoids作了进一步的优化。为了验证HK-Medoids算法及其优化的有效性,我们做了大量的实验,比较和分析了算法的优化率和加速比等指标,从而验证了HK-Medoids算法的的有效性。
基于Hadoop的K-Medoids聚类算法实现与优化
时间: 2024-10-24 20:34:26