基于Hadoop平台的随机森林算法研究及图像分类系统实现
厦门大学 梁世磊
本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率。首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架;接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法;随后,重点介绍随机森林算法,并在此基础之上,结合MapReduce计算框架,对随机森林模型构建过程进行双重并行化的改进,以提高随机森林算法的运行效率;然后,基于以上研究成果,本文构建了基于Hadoop平台的图像分类原型系统,包括Hadoop平台下处理图像接口的实现、基于DenseSift算法的特征采样过程、基于BoVW模型表示图像、构建图像的空间金字塔模型和利用改进后的随机森林算法进行分类器的训练共五个部分。最后,通过实验验证了基于Hadoop平台的图像并行化处理地有效性,同时证明并行化的随机森林算法相比较于单机版的随机森林,处理过程所消耗的时间大为缩短,并取得了不错的分类效果。基于Hadoop平台的图像并行化处理过程,大大提高了海量图像处理过程的速度,同时针对于图像分类,改进后的随机森林算法在效率上有了明显的提高。
基于Hadoop平台的随机森林算法研究及图像分类系统实现
时间: 2024-11-02 12:00:34