基于Spark 的抄袭检测云计算框架研究

基于Spark 的抄袭检测云计算框架研究

于海浩

抄袭检测从根本上说是一个文本相似度的计算问题,需要迅速准确的在海量文集中对文本的原创性进行检测,耗费大量时间和资源,是计算密集和数据密集的复杂过程。采用分布式计算是是提高检测效率的有有效手段之一。本文提出了一套基于Spark的分布式抄袭检测云计算框架该框架使用由集群资源管理器Apache Mesos,支持内存驻留的 MapReduce计算框架,分布式 Hadooop 文件系统构成的分布式计算集群。测试结果表明,此框架比Hadooop传统分
布式计算框架在效率上有较大提升。

基于Spark 的抄袭检测云计算框架研究

时间: 2024-11-02 23:01:05

基于Spark 的抄袭检测云计算框架研究的相关文章

基于MVC设计模式的WEB应用框架研究

摘要 MVC设计模式是基于J2EE的WEB应用开发的首选模式,当前许多流行的框架也都是基于MVC设计模式的.本文简要介绍了MVC设计模式和Struts框架,并提出了一种基于MVC模式的新型WEB应用开发框架--WebFramework,并对该框架的各个层次的组成.功能进行了详细的描述. 关键词 MVC设计模式:J2EE:框架:Struts 引言 随着开源软件的兴起,各种框架也纷纷出现,如Apache 的开源框架Struts就是典型的代表.在实际软件开发中运用这些框架,大大降低了J2EE开发的复杂

【Spark Summit East 2017】Ernest:基于Spark的性能预测大规模分析框架

本讲义出自Shivaram Venkataraman在Spark Summit East 2017上的演讲,近期使用Spark进行机器学习,基因组学和科学分析呈现增长的趋势,然而将这些应用部署在云计算平台上是有一定挑战性的,而应对上述挑战的关键在于有能力预测的应用程序在保持高性能的状态下所需要的资源配置,这样就可以自动选择最优配置.本讲义主要介绍了Ernest--性能预测大规模分析的框架.

云计算中基于否定规则的访问控制技术的研究

云计算中基于否定规则的访问控制技术的研究 吴正学 戴牡红 数据的安全性和隐私保护给云计算领域带来了极大挑战,为实现合作企业间在云环境下公开共享部分数据且不涉及保密信息,提出一种基于否定规则的访问控制技术.主要思想是通过判断访问查询是否授权,检测授权与否定规则是否存在冲突,来达到阻止非法访问的目的.理论分析和实验结果表明该机制能有效地保障云数据的安全. 云计算中基于否定规则的访问控制技术的研究

基于Hadoop的云计算模型研究及气象应用

基于Hadoop的云计算模型研究及气象应用 南京信息工程大学  张建 本文的主要工作如下: 首先对气象数据的特点进行分析,并指出将气象数据直接存储于Hadoop中存在的问题.根据气象数据的特点将设计基于Trie树变形的文件合并算法.在此基础上通过实验验证,数据高效率处理.安全等方面得到有效的提升和保障. 其次,设计并实现基于Hadoop的海量气象异构数据存储和计算框架,针对气象数据中实时提取有效数据的性能效率.数据保密安全.灾害备份等问题,利用HDFS存储气象数据以及利用MapReduce构建并

基于移的Agent的云计算身份认证机制研究

基于移的Agent的云计算身份认证机制研究 杨娜娜,王杨,陈付龙,黄亚坤,邓琨 针对当前云计算的安全需求,提出了一种适用于云计算环境下的身份认证方案.首先设计出适用于云计算身份认证场景的移动agent结构模型,然后给出了基于mobileagent的云计算安全认证策略.该方案引入了可信第三方机构对认证agent建立定量信任评估,每次进行认证前通过信任度的判断对认证过程进行控制:在认证完成后,又进一步引入了信任反馈评价机制.理论分析和原型系统的实现表明,提出的云计算认证方案具有一定的可行性和可用性.

Intel开源了基于Apache Spark的分布式深度学习框架BigDL

Intel开源了基于Apache Spark的分布式深度学习框架BigDL.BigDL借助现有的Spark集群来运行深度学习计算,并简化存储在Hadoop中的大数据集的数据加载. 在Xeon服务器上运行的测试结果表明,BigDL比其他开源框架Caffe.Torch和TensorFlow有显著的性能提升.BigDL速度可与主流GPU匹敌,而且能够扩展到数十个Xeon服务器. BigDL库支持Spark 1.5.1.6和2.0版本,并容许将深度学习嵌入在现有的Spark程序中.BigDL库中有把Sp

基于等级保护基本要求的云计算安全研究

基于等级保护基本要求的云计算安全研究 朱圣才 随着云计算的进一步推进和发展,云计算面临的安全问题变得越来越突出,特别是在云计算安全中的用户数据机密性.完整性和可用性方面尤为突出,云计算安全已经 成为云计算推进过程中的首要障碍和难题.从云计算应用安全和系统安全两个层面,提出了云计算安全中应用安全和系统安全的威胁所在以及相应的基本保护要求. 基于等级保护基本要求的云计算安全研究

基于属性加密的云计算安全研究

基于属性加密的云计算安全研究 西安电子科技大学  郭利君 本文对Hadoop架构和文件共享系统中存在的安全性问题进行了分析,并结合属性加密算法提出相应的解决方法.首先对于云计算环境中Hadoop架构存在的安全性问题,本文结合CCE-ABE算法设计了一套完整的可以解决安全性问题的方案,并介绍了方案的主要思想.安全假设以及安全Hadoop架构的整个流程.最后通过用户使用k-means服务来对数据进行分类的例子,本文具体说明了安全Hadoop架构的应用.此外,针对云计算环境中的文件共享系统存在的安全性

基于信任的云计算安全模型研究

基于信任的云计算安全模型研究 山东师范大学 张艳东 云安全始终是云服务商不能不面对的软肋,它与云计算的发展前景息息相关.可以说,脱离了安全保障,云计算的应用及推广无从谈起.虽然传统的安全解决方案在一定程度解决了云计算中的安全问题,但完全将此套方案移植到云平台绝对不可取.由于云计算的高虚拟化程度,部署的复杂性以及高度的可扩展性等新特点,都促使我们必须研究适用于云计算的安全机制.其中信任问题是云计算推广面临的最大障碍之一,也即云用户和云服务商是否能够相互信任.针对上述问题,本文提出了相应的解决方案,