spark计算密集型

问题描述

求各位大神帮忙,现在有个程序,大概思想是:我现在有一串数,每个数都有各自影响生成一串新数,然后对这些新数分别计算出一串数据,最后对第二次生成的所有数排序,根据这些排序把第三次生成的数写到文件中,我现在spark流程就是上面说的,请问有什么好的想法可以大大提升速度吗?示例:比如,一开始只有一个数:1(可以有多个数),然后这个数生成一串新数:5,2,6,对5,2,6分别进行计算,比如2,生成数组1.3,4.5;5生成数组5.5,3.7;6生成数组2.3,6.7;然后对5,2,6进行排序,把生成的数写入文件,结果是:1.3,4.5,5.5,3.7,2.3,6.7求大神帮忙~~~

解决方案

时间: 2024-11-01 18:03:10

spark计算密集型的相关文章

spark计算hdfs上的文件时报错

问题描述 spark计算hdfs上的文件时报错 scala> val rdd = sc.textFile("hdfs://...") scala> rdd.count java.lang.VerifyError: class org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$AppendRequestProto overrides final method getUnknownFields.

如何创建虚拟机下的可运行计算密集型的Java应用程序

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 通过Windows Azure,你就可以使用一个虚拟机来处理计算密集型任务,举例来说,一个虚拟机可以处理任务,并交付结果给客户机或移动应用程序.整篇文章阐述的就是让你了解怎样创建一个可运行计算密集型的Java应用程序的同时被另一个Java应用程序所监视的虚拟机.如果你知道如何创建Java控制台应用程序.导入库到你的Java应用程序及生成一个Java存档(JAR).假

spark计算mongodb数据,不知是环境的问题还是代码的问题,还没入门大神们帮帮忙啊

问题描述 spark计算mongodb数据,不知是环境的问题还是代码的问题,还没入门大神们帮帮忙啊 spark计算mongodb中的数据,总是计算不出结果,这些错误信息也找不到是为什么, 有一两次能计算出结果 .第一次接触这个东西 大神们帮帮忙啊 主要代码如下: SparkConf sparkConf = new SparkConf(); sparkConf.setMaster(SPARK_PATH); sparkConf.setAppName("Logs_Collect"); Str

《Spark大数据处理:技术、应用与性能优化》——第3章 Spark计算模型3.1 Spark程序模型

第3章 Spark计算模型 创新都是站在巨人的肩膀上产生的,在大数据领域也不例外.微软的Dryad使用DAG执行模式.子任务自由组合的范型.该范型虽稍显复杂,但较为灵活.Pig也针对大关系表的处理提出了很多有创意的处理方式,如flatten.cogroup.经典虽难以突破,但作为后继者的Spark借鉴经典范式并进行创新.经过实践检验,Spark的编程范型在处理大数据时显得简单有效.的数据处理与传输模式也大获全胜.Spark站在巨人的肩膀上,依靠Scala强有力的函数式编程.Actor通信模式.闭

Apache Spark机器学习.1.2 在机器学习中应用Spark计算

1.2 在机器学习中应用Spark计算 基于RDD和内存处理的创新功能,Apache Spark真正使得分布式计算对于数据科学家和机器学习专业人员来说简便易用.Apache Spark团队表示:Apache Spark基于Mesos 集群管理器运行,使其可以与Hadoop以及其他应用共享资源.因此,Apache Spark可以从任何Hadoop输入源(如HDFS)中读取数据.   Apache Spark计算模型非常适合机器学习中的分布式计算.特别是在快速交互式机器学习.并行计算和大型复杂模型情

如何在云中运行计算密集型任务?

公有云的出现将大规模的HPC资源带到了普通公司的身边.在很多情况下,尤其是对于临时性HPC项目来说,和内部购买必要的计算资源相比,云解决方案在成本上更加行之有效.在公有云出现之前,只有少数公司,比如大型金融服务公司才有经费购买进行高性能计算所必需的资源. 在去年,可以看到在市场上有相当多的顾客需求,很多行业的许多公司针对大规模的HPC集群对软件平台进行测试.当我们首先向传统的HPC供应商描述需求时,经常被问到是哪个行业财团或是政府机关在谋求进行此项工作,因为这关系到HPC环境的规模.当我们告诉他

戴尔PowerEdge R900计算密集型方案仅售30000元

编辑点评:戴尔PowerEdge R900作为四插槽4U机架式服务器是戴尔目前最强大的基于英特尔的系统,它可以为企业提供更高的内部扩展能力和基本的高可用性功能.此外,通过提供热插拔冗余电源和硬盘及包括RAID 5在内的多种RAID选件,PowerEdge R900满足了建立高可用性而不牺牲可扩展性的需求. 随着数据量爆炸性的增长,企业对于服务器的性能要求和存储容量提出了更高的需求,戴尔PowerEdge R900服务器能够以更低的能耗,为数据库.服务器整合及虚拟化等大内存.计算密集型解决方案为企

戴尔PowerEdge R410计算密集型应用售9000元

编辑点评:戴尔PowerEdge R410是采用1U双路机架设计,是面向中型Web开发等应用机型.支持至强5500平台,不仅提升性能更高,而且功耗更低,同时在设计上,易于部署,非常适合空间有限的数据中心使用.随机附带的新一代OpenManage管理工具功能更加丰富,为服务器后期维护管理降低难度,降低企业TCO. 英特尔至强5500系列产品进入市场以来,其智能化的技术特点受到用户青睐.作为有着820.html">渠道优势的戴尔,适时推出机身小巧的PowerEdge R410,这款产品支持双路

Java批处理:介绍Modern Batch和计算密集型的编程模型

本系列文章由两部分组成,将介绍 http://www.aliyun.com/zixun/aggregation/33934.html">Modern Batch 功能提供的编程模型,并演示 IBM Rational® Application Developer V8.0 中提供的新功能,这些功能大大简化了提交作业所需的批处理应用程序及关联 xJCL 的开发.第 1 部分介将绍 Modern Batch,展示计算密集型编程模型的一个示例实现.第 2 部分将介绍事务批处理模型及批处理框架的其他