基于Spark 的抄袭检测云计算框架研究
于海浩
抄袭检测从根本上说是一个文本相似度的计算问题,需要迅速准确的在海量文集中对文本的原创性进行检测,耗费大量时间和资源,是计算密集和数据密集的复杂过程。采用分布式计算是是提高检测效率的有有效手段之一。本文提出了一套基于Spark的分布式抄袭检测云计算框架该框架使用由集群资源管理器Apache Mesos,支持内存驻留的 MapReduce计算框架,分布式 Hadooop 文件系统构成的分布式计算集群。测试结果表明,此框架比Hadooop传统分
布式计算框架在效率上有较大提升。
基于Spark 的抄袭检测云计算框架研究
时间: 2024-11-02 23:01:05