【Spark Summit EU 2016】TPC-DS基准测试下的Spark SQL2.0使用体验

本讲义出自Berni Schiefer在Spark Summit EU上的演讲,目前而言Spark SQL发展演进的速度非常迅猛,但是大多数情况下还是部署在传统的Hadoop集群上,为了尝试将Spark SQL使用在专为Spark设置的集群上,Berni Schiefer使用了最新版本的Spark SQL应对企业级标准的工作负载。

在分享中,Berni Schiefer还介绍了TPC-DS基准测试的相关内容,并且讲述了从配置操作系统、网络再到配置Spark等一系列工作的体验以及最终实验的结果和体验。

时间: 2024-09-13 00:41:33

【Spark Summit EU 2016】TPC-DS基准测试下的Spark SQL2.0使用体验的相关文章

【Spark Summit EU 2016】Bing规模下的Spark Streaming

本讲义出自Kaarthik Sivashanmugam在Spark Summit EU上的演讲,主要介绍了在微软公司的Bing搜索每月上百万次搜索请求.每小时数十TB数据量.成千上万台机器组成数据中心.以及多个数据处理框架这样的规模下的Spark Streaming的应用.

【Spark Summit EU 2016】使用参数服务器在Spark上扩展因式分解机

本讲义出自Nick Pentreath在Spark Summit EU 2016上的演讲,主要介绍了什么是因式分解机(Factorization Machines)以及使用Spark和Glint构建的分布式因式分解机过程中使用到的Spark线性模型.参数服务器以及分布式因式分解机等内容,除此之外讲义中还介绍了目前的研究成果以及面对的挑战和未来的研究发展方向.

【Spark Summit EU 2016】使用Flame Graphs提升Spark 2.0性能的研究

本讲义出自Luca Canali在Spark Summit EU 2016上的演讲,他首先对于Spark 1.6版本和Spark 2.0版本的区别进行了分析,并介绍了Spark SQL的相关内容,SparkSQL无论在数据兼容.性能优化.组件扩展方面都得到了极大的方便,他还着重介绍了对于使用Flame Graphs提升Spark 2.0性能的相关研究.

【Spark Summit EU 2016】没人会把Spark放在容器里

本讲义出自Jorg Schad在Spark Summit EU上的演讲,主要介绍了基于Mesos的开源的数据中心操作系统DC/OS,DC/OS可以用于处理容器和大数据.Jorg Schad还介绍了容器技术的相关内容,从容器技术的设计理念到容器技术与虚拟机技术的区别,以及容器技术控制组.命名空间等相关技术细节,在最后还讨论了Java与容器的关联.

【Spark Summit EU 2016】使用Java Agent扩展Spark

本讲义出自Jaroslav Bachorik与Adrian Popescu在Spark Summit EU上的演讲,主要介绍了Spark缓存中出现的关于when, what, where的挑战问题以及应对这一挑战使用RDDs的解决算法.并介绍了Java Agent的相关内容,如何使用Java Agent来扩展Spark,如何在分布式集群上使用Agent以及Yarn定位服务的相关内容.

【Spark Summit EU 2016】汽车研发中基于Spark的时间序列分析

本讲义出自Miha Pelko与Til Piffl在Spark Summit EU上的演讲,主要介绍了汽车行业目前已经成为了主要的数据产生者,由于汽车行业的数据问题比较特殊,所以需要进行并行的时间序列分析.除此之外还介绍了关于多传感器时间序列分析的Spark API--DaSense,并行状态机在汽车行业的使用以及并行的大数据解决方案.

【Spark Summit EU 2016】经验分享:将SparkR用于生产环境下的数据科学应用中

本讲义出自Heiko Korndorf在Spark Summit EU 2016上的演讲,主要分享了R语言以及现实场景下使用R语言进行数据分析的应用案例,并且将引领大家使用SparkR扩展R语言应用,并介绍了SparkR1.X和2.X架构,并介绍了这两个版本的SparkR分别如何获取. 除此之外,Heiko Korndorf还分享了如何使用SparkR将数据科学与数据工程集成到一起,将SparkR用于生产环境下的数据科学应用中,并对于Spark无限发展空间的生态系统进行了展望.

【Spark Summit EU 2016】规模不断扩展的服务器集群上Spark的性能表征

本讲义出自Ahsan Javed Awan在Spark Summit EU 2016上的演讲,主要介绍了在服务器集群的规模不断扩展的状态下,如何获取运行于服务器集群上的Spark的性能指标并对于性能进行优化,并分享了为了使得架构设计能够提升节点级别的性能表现,该如何确定衡量指标,以及如何设计可扩展的架构.

【Spark Summit EU 2016】Spark应用的动态实时修改

本讲义出自Elena Lazovik在Spark Summit EU 2016上的演讲,主要介绍了对于对于Spark驱动的应用而言,需要能够在某些情景下修改某些功能或者参数以及改变数据来源,而这些操作不能让整个应用停止运行,这就需要对于Spark应用的动态实时修改来完成.