【Spark Summit East 2017】提升Python与Spark的性能和互操作性

本讲义出自Wes McKinney在Spark Summit East 2017上的演讲，对于使用Python编程以及并行化和扩大数据处理方面，Spark已成为一个受欢迎和成功的框架，但是在很多案例中，使用PySpark的任务处理要比使用Scala编写的效率差，而且在Python环境与Spark主机之间推拉数据也将增加开销，本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题。

时间： 2024-10-22 03:07:41

【Spark Summit East 2017】提升Python与Spark的性能和互操作性的相关文章

【Spark Summit East 2017】Intel与Spark共同助推机器学习与深度学习

本讲义出自Ziya Ma在Spark Summit East 2017上的演讲,主要介绍了人工智能对于目前各个行业的深刻变革并将继续释放大量的能量,并且讲述了人工智能目前需要更进一步提升的需求点,并且介绍了应对人工智能的需求,Intel所研发的BigDL大数据分析框架. BigDL特性与CAFEE以及TORCH相似,对于用户和开发者而言,BigDL非常易于使用,并且所需成本比较低,而且能够使得深度学习在大数据平台上易于扩展,而且能够在单点上具有较高的性能.

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.

【Spark Summit East 2017】将Apache Spark MLlib扩展至十亿级别的参数

本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了通过自由向量L-BFGS进行逻辑回归来满足真实世界的数据集和需求,并分享了如何将这种方法用于其他的机器学习算法.

【Spark Summit East 2017】R与Spark：如何使用RStudio的 Sparklyr和H2O的 Rsparkling分析数据

本讲义出自Nathan Stephens在Spark Summit East 2017上的演讲,Sparklyr是一个让你在Spark中进行数据分析就像在R开发环境下进行数据分析的R语言包,Sparklyr 支持处理数据帧对象的常用工具dplyr的完整后端,你可以使用dplyr将R代码翻译成Spark SQL,Sparklyr还支持MLlib,所以你可以在分布式数据集上运行分类器以及回归.聚类.决策树等机器学习算法,讲义中演示了如何使用Sparklyr和Rsparkling分析数据.

【Spark Summit East 2017】使用基于Spark的超级计算机压缩软件开发周期

本讲义出自Anthony DiBiase在Spark Summit East 2017上的演讲,主要分享了如何为了大规模地部署服务压缩软件开发周期,并分享了应对自动化决策和模型的复杂性和基于Spark 的机器学习解决方案,演讲中还对于Cray超级计算机进行了介绍.

【Spark Summit East 2017】BigDL：Spark上的分布式深度学习库

本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了"高性能计算"和"大数据"的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储.数据处理和挖掘.机器学习以及深度学习等.

【Spark Summit East 2017】深度探究Spark + Parquet

本讲义出自Emily Curtin and Robbie Strickland在Spark Summit East 2017上的演讲,主要介绍了使用Spark + Parquet构建的非常之快.存储高效.查询也高效的数据湖以及与之相匹配的一系列工具.演讲分享了Parquet是如何工作的以及如何从Tungsten得改进并使得SparkSQL可以利用这样的设计克服分布式分析中的两大瓶颈:通信成本和数据解码,并提供快速查询的.

【Spark Summit East 2017】从解决Spark陷阱中学到的问题解决清单

本讲义出自Justin Pihony与Stavros Kontopoulos在Spark Summit East 2017上的演讲,因为Spark,大数据应用程序的编写并不简单,讲义中分享了Lightbend帮助客户在Spark中发现很多的隐藏陷阱,介绍了应该如何洞察这些陷阱和如何避免出现相同的错误.

【Spark Summit East 2017】用Yarn监控Scala和Python Spark工作的动态资源使用情况

本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕"失去的任务"和"容器由于超出内存限制被Yarn关闭"的消息在Spark Yarn的应用程序出现的比例增多.甚至在分布式Yarn环境中,回答"应用程序使用了多少内存?"这个问题都是非常棘手的.为观察Spark的重要统计工作,包括executor-by-executor内存和CPU使用,JDK以及pySpark Yarn容器中的