【Spark Summit EU 2016】在多核机器上提升Spark性能

本讲义出自Qifan Pu在Spark Summit EU 2016上的演讲,主要介绍了如何在多核机器上提升Spark的性能表现以及如何研究和实现内存shuffle。

因为Spark开始时是作为集群计算框架出现的,所以产生了多核机器上关于Spark的性能表现的研究,Spark的设计是基于多计算节点的,本讲义中Qifan Pu着重探讨了数据交互也就是shuffle。

时间: 2024-10-26 01:42:21

【Spark Summit EU 2016】在多核机器上提升Spark性能的相关文章

【Spark Summit EU 2016】使用Flame Graphs提升Spark 2.0性能的研究

本讲义出自Luca Canali在Spark Summit EU 2016上的演讲,他首先对于Spark 1.6版本和Spark 2.0版本的区别进行了分析,并介绍了Spark SQL的相关内容,SparkSQL无论在数据兼容.性能优化.组件扩展方面都得到了极大的方便,他还着重介绍了对于使用Flame Graphs提升Spark 2.0性能的相关研究.

【Spark Summit EU 2016】使用参数服务器在Spark上扩展因式分解机

本讲义出自Nick Pentreath在Spark Summit EU 2016上的演讲,主要介绍了什么是因式分解机(Factorization Machines)以及使用Spark和Glint构建的分布式因式分解机过程中使用到的Spark线性模型.参数服务器以及分布式因式分解机等内容,除此之外讲义中还介绍了目前的研究成果以及面对的挑战和未来的研究发展方向.

【Spark Summit EU 2016】Bing规模下的Spark Streaming

本讲义出自Kaarthik Sivashanmugam在Spark Summit EU上的演讲,主要介绍了在微软公司的Bing搜索每月上百万次搜索请求.每小时数十TB数据量.成千上万台机器组成数据中心.以及多个数据处理框架这样的规模下的Spark Streaming的应用.

【Spark Summit EU 2016】TPC-DS基准测试下的Spark SQL2.0使用体验

本讲义出自Berni Schiefer在Spark Summit EU上的演讲,目前而言Spark SQL发展演进的速度非常迅猛,但是大多数情况下还是部署在传统的Hadoop集群上,为了尝试将Spark SQL使用在专为Spark设置的集群上,Berni Schiefer使用了最新版本的Spark SQL应对企业级标准的工作负载. 在分享中,Berni Schiefer还介绍了TPC-DS基准测试的相关内容,并且讲述了从配置操作系统.网络再到配置Spark等一系列工作的体验以及最终实验的结果和体

【Spark Summit EU 2016】没人会把Spark放在容器里

本讲义出自Jorg Schad在Spark Summit EU上的演讲,主要介绍了基于Mesos的开源的数据中心操作系统DC/OS,DC/OS可以用于处理容器和大数据.Jorg Schad还介绍了容器技术的相关内容,从容器技术的设计理念到容器技术与虚拟机技术的区别,以及容器技术控制组.命名空间等相关技术细节,在最后还讨论了Java与容器的关联.

【Spark Summit EU 2016】使用Java Agent扩展Spark

本讲义出自Jaroslav Bachorik与Adrian Popescu在Spark Summit EU上的演讲,主要介绍了Spark缓存中出现的关于when, what, where的挑战问题以及应对这一挑战使用RDDs的解决算法.并介绍了Java Agent的相关内容,如何使用Java Agent来扩展Spark,如何在分布式集群上使用Agent以及Yarn定位服务的相关内容.

【Spark Summit EU 2016】汽车研发中基于Spark的时间序列分析

本讲义出自Miha Pelko与Til Piffl在Spark Summit EU上的演讲,主要介绍了汽车行业目前已经成为了主要的数据产生者,由于汽车行业的数据问题比较特殊,所以需要进行并行的时间序列分析.除此之外还介绍了关于多传感器时间序列分析的Spark API--DaSense,并行状态机在汽车行业的使用以及并行的大数据解决方案.

【Spark Summit EU 2016】规模不断扩展的服务器集群上Spark的性能表征

本讲义出自Ahsan Javed Awan在Spark Summit EU 2016上的演讲,主要介绍了在服务器集群的规模不断扩展的状态下,如何获取运行于服务器集群上的Spark的性能指标并对于性能进行优化,并分享了为了使得架构设计能够提升节点级别的性能表现,该如何确定衡量指标,以及如何设计可扩展的架构.

【Spark Summit EU 2016】Glint: Spark的异步参数服务器

本讲义出自Rolf Jagerman在Spark Summit EU 2016上的演讲,主要介绍了Spark的异步参数服务器Glint,随着机器学习的数据量越来越多,其所生成的模型的规模也越来越大,于是就出现了模型大小已经超出了一台机器的内存的情况,于是就需要参数服务器来解决这一问题.参数服务器其实是一个机器学习框架,它将机器学习模型分布到多台机器上进行计算实现.