【Spark Summit East 2017】用Yarn监控Scala和Python Spark工作的动态资源使用情况

本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕“失去的任务”和“容器由于超出内存限制被Yarn关闭”的消息在Spark Yarn的应用程序出现的比例增多。甚至在分布式Yarn环境中,回答“应用程序使用了多少内存?”这个问题都是非常棘手的。为观察Spark的重要统计工作,包括executor-by-executor内存和CPU使用,JDK以及pySpark Yarn容器中的python的部分,Sqrrl已经开发了一个测试框架。

时间: 2024-11-05 16:30:08

【Spark Summit East 2017】用Yarn监控Scala和Python Spark工作的动态资源使用情况的相关文章

【Spark Summit East 2017】Ernest:基于Spark的性能预测大规模分析框架

本讲义出自Shivaram Venkataraman在Spark Summit East 2017上的演讲,近期使用Spark进行机器学习,基因组学和科学分析呈现增长的趋势,然而将这些应用部署在云计算平台上是有一定挑战性的,而应对上述挑战的关键在于有能力预测的应用程序在保持高性能的状态下所需要的资源配置,这样就可以自动选择最优配置.本讲义主要介绍了Ernest--性能预测大规模分析的框架.

【Spark Summit East 2017】Kafka、YARN与Spark Streaming作为一个服务

本讲义出自Jim Dowling在Spark Summit East 2017上的演讲,主要介绍了在容易进行调试的YARN上构建多租户Spark streaming应用程序的过程中遇到的挑战,并展示了如何使用ELK技术栈对Spark streaming应用程序进行日志记录和调试,以及如何使用Graphana和Graphite对应用进行监控以及优化以及使用Dr Elephant终止Spark streaming任务.

【Spark Summit East 2017】Spark中的草图数据和T-Digest

本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化.优化数据编码.估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示.分位数估计以及数据合成的作用.

【Spark Summit East 2017】不再有“Sbt Assembly”了:使用CueSheet反思Spark Summit

本讲义出自Jong Wook Kim在Spark Summit East 2017上的演讲,主要介绍了CueSheet,一个围绕着Spark构建的开源框架,能够对于Spark应用程序的开发进行加速. 在Spark应用的开发中至关重要,但是并不是很有趣的一部分就是对应用进行打包,尽管有很多像Zeppelin 以及Databricks这样的笔记本式的交互环境,但是对于存在很多严重依赖的正式项目而言,经常存在将Spark项目作为单独的Scala版控制树进行管理.为了应对这些,官方文档告诉我们使用SBT

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图.计算描述性统计的跨平台的Scala数据聚合基元--Histogrammar package,并分享了非结构化数据处理.高效访问的数据存储格式以及大规模图处理等问题.

【Spark Summit East 2017】提升Python与Spark的性能和互操作性

本讲义出自Wes McKinney在Spark Summit East 2017上的演讲,对于使用Python编程以及并行化和扩大数据处理方面,Spark已成为一个受欢迎和成功的框架,但是在很多案例中,使用PySpark的任务处理要比使用Scala编写的效率差,而且在Python环境与Spark主机之间推拉数据也将增加开销,本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题.

【Spark Summit East 2017】使用Spark进行时间序列分析

本讲义出自Simon Ouellette在Spark Summit East 2017上的演讲,主要介绍了在Spark上与时间序列数据进行交互的Scala / Java / Python库--spark-timeseries,演讲中分享了spark-timeseries的总体设计,目前实现的功能,并将提供一些用法示例.因为项目还处于早期阶段,演讲也介绍了spark-timeseries当前的缺点和未来spark-timeseries项目的发展路线图.

【Spark Summit East 2017】为什么没有人会告诉你如何写一个流应用

本讲义出自Mark Grover与Ted Malaska在Spark Summit East 2017上的演讲,如果你想开发一个非凡的流应用就不得不考虑以下的问题: 怎么管理补偿? 怎么管理状态? 如何让Spark Streaming工作能够从失败中恢复?能够避免一些失败吗? 如何优雅地关闭流的工作? 如何监控和管理流的工作吗? 怎样才能更好地在流中管理DAG? 什么时候使用检查点,什么时候不用? 为什么在流数据源时需要WAL?

【Spark Summit East 2017】Spark,类型函数式编程的引诱者

本讲义出自Jeff Smith与Rohan Aletty在Spark Summit East 2017上的演讲,主要介绍了如何使用Spark作为学习工具,在函数式编程等领域构建技能栈,介绍了从基础工作Scala和函数式编程的概念到完全实现机器学习管道,并讲解了Spark以及MLlib.