基于云计算技术的化合物相似性分析系统
复旦大学 李杰辉
本文研究了云计算的相关理论、特点和关键技术,探索了分布式数据处理编程模型MapReduce以及其开源实现Hadoop的运行机制和原理,针对分子结构比较问题提出了一个分布式解决方案。主要做了如下研究:1)研究了云计算相关技术和分子相似性比较算法,结合Hadoop云计算技术的优点,针对Hadoop无法直接应用于分子相似性比较问题,提出了基于索引文件的处理方法,将Hadoop云计算技术应用到分子相似性比较领域上。2)通过实验验证了该方法的可行性。实验结果表明该系统在拥有16个CPU并行处理的情况下,本方案平均比单机处理系统快14.4倍,有效地满足了分子相似性比较系统海量计算的需求。3)针对Hadoop的Partition算法可能存在的数据倾斜的问题,提出了一个均匀的轮询分区算法,减少了数据倾斜带来的影响,实验证明该算法可以使整个系统的效率提高5%以上。4) MapReduce框架具备容错功能,也就是当某个计算节点出现故障时,主节点会自动把该节点计算任务分配到别的空闲机器上,但是该计算节点的数据块会被从新处理。
http://bbs.chinacloud.cn/showtopic-16942.aspx
时间: 2024-11-05 16:25:44