【Spark Summit East 2017】用于数据分析的基于Kerberos的安全的Spark Notebook

本讲义出自Joy Chakraborty在Spark Summit East 2017上的演讲,主要介绍了为了使用Spark构建基于Kerberos的安全的JupyterHub笔记本所提出的技术设计和开发思想。在演讲中Joy Chakraborty着重介绍了Sparkmagic和Livy的功能以及Kerberos的集成技术。

时间: 2024-09-20 20:00:40

【Spark Summit East 2017】用于数据分析的基于Kerberos的安全的Spark Notebook的相关文章

【Spark Summit East 2017】Hail:基于Spark的可伸缩基因数据分析平台

本讲义出自Cotton Seed在Spark Summit East 2017上的演讲,主要分享了关于开源项目Hail(https://hail.is)的相关内容,Hail是基于Spark实现的可伸缩的平台,该平台帮助全球的基因遗传学社区去构建.共享以及应用新的工具. 在讲义中介绍了Hail的目标以及体系结构,以及面对如何借助Spark有效地操纵基因数据的挑战所引发的创新点,以及Hail平台的性能和未来的发展方向.

【Spark Summit East 2017】Ernest:基于Spark的性能预测大规模分析框架

本讲义出自Shivaram Venkataraman在Spark Summit East 2017上的演讲,近期使用Spark进行机器学习,基因组学和科学分析呈现增长的趋势,然而将这些应用部署在云计算平台上是有一定挑战性的,而应对上述挑战的关键在于有能力预测的应用程序在保持高性能的状态下所需要的资源配置,这样就可以自动选择最优配置.本讲义主要介绍了Ernest--性能预测大规模分析的框架.

【Spark Summit East 2017】基于Spark的行为分析研究

本讲义出自John W u在Spark Summit East 2017上的演讲,主要介绍了在Spark生态系统中使用机器学习技术对于一系列应用的用户行为进行分析理解的经验.在这种背景下,Spark使得大型高性能计算系统的强大计算能力可以被可用行为经济学家使用,而不需要像科学家那样去了解并行计算.

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想.

【Spark Summit East 2017】使用Spark对仙女星系数据进行分析

本讲义出自Jose Nandez在Spark Summit East 2017上的演讲,主要介绍了使用Spark与Python API对于仙女星系的数据进行交互式数据分析,Spark-Python代码充分利用了Spark RDDs进行查询来帮助预测某一对像是否属于仙女星系.

【Spark Summit East 2017】使用Spark进行时间序列分析

本讲义出自Simon Ouellette在Spark Summit East 2017上的演讲,主要介绍了在Spark上与时间序列数据进行交互的Scala / Java / Python库--spark-timeseries,演讲中分享了spark-timeseries的总体设计,目前实现的功能,并将提供一些用法示例.因为项目还处于早期阶段,演讲也介绍了spark-timeseries当前的缺点和未来spark-timeseries项目的发展路线图.

【Spark Summit East 2017】Spark 2.0机器学习大规模实践经验

本讲义出自Berni Schiefer在Spark Summit East 2017上的演讲,主要介绍了关于Spark 2.0进行大规模机器学习的实际经验,而Berni Schiefer所使用的测试平台不同于典型的Hadoop集群而是为了实现更高的性能而采用了全新的集群设计,使用更多的核心.RAM以及最新的SSD以及100GbE.

【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库

本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了"高性能计算"和"大数据"的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储.数据处理和挖掘.机器学习以及深度学习等.

【Spark Summit East 2017】深度探究Spark + Parquet

本讲义出自Emily Curtin and Robbie Strickland在Spark Summit East 2017上的演讲,主要介绍了使用Spark + Parquet构建的非常之快.存储高效.查询也高效的数据湖以及与之相匹配的一系列工具.演讲分享了Parquet是如何工作的以及如何从Tungsten得改进并使得SparkSQL可以利用这样的设计克服分布式分析中的两大瓶颈:通信成本和数据解码,并提供快速查询的.