【Spark Summit East 2017】基于SparkR的可伸缩数据科学

本讲义出自Felix Cheung在Spark Summit East 2017上的演讲,R是一个非常受欢迎的科学数据平台,而Apache Spark是一个高度可扩展的数据平台,SparkR结合了两者的优点,本讲义介绍了关于SparkR的相关内容以及Spark 2.x版本的新特性。

时间: 2024-09-20 03:45:07

【Spark Summit East 2017】基于SparkR的可伸缩数据科学的相关文章

【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎

本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战.

【Spark Summit East 2017】Stitch Fix从Redshift迁移到Spark的实践

本讲义出自Sky Yin在Spark Summit East 2017上的演讲,数据科学家每天都会编写SQL查询语句,通常情况下,他们知道如何编写正确的查询语句,但不知道为什么他们的查询执行却是缓慢的,所以需要对于SQL查询进行优化,本讲义将介绍如何将一个大表从Redshift迁移到Spark上.

【Spark Summit East 2017】Hail:基于Spark的可伸缩基因数据分析平台

本讲义出自Cotton Seed在Spark Summit East 2017上的演讲,主要分享了关于开源项目Hail(https://hail.is)的相关内容,Hail是基于Spark实现的可伸缩的平台,该平台帮助全球的基因遗传学社区去构建.共享以及应用新的工具. 在讲义中介绍了Hail的目标以及体系结构,以及面对如何借助Spark有效地操纵基因数据的挑战所引发的创新点,以及Hail平台的性能和未来的发展方向.

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图.计算描述性统计的跨平台的Scala数据聚合基元--Histogrammar package,并分享了非结构化数据处理.高效访问的数据存储格式以及大规模图处理等问题.

【Spark Summit East 2017】用于数据分析的基于Kerberos的安全的Spark Notebook

本讲义出自Joy Chakraborty在Spark Summit East 2017上的演讲,主要介绍了为了使用Spark构建基于Kerberos的安全的JupyterHub笔记本所提出的技术设计和开发思想.在演讲中Joy Chakraborty着重介绍了Sparkmagic和Livy的功能以及Kerberos的集成技术.

【Spark Summit East 2017】使用基于Spark的超级计算机压缩软件开发周期

本讲义出自Anthony DiBiase在Spark Summit East 2017上的演讲,主要分享了如何为了大规模地部署服务压缩软件开发周期,并分享了应对自动化决策和模型的复杂性和基于Spark 的机器学习解决方案,演讲中还对于Cray超级计算机进行了介绍.

【Spark Summit East 2017】基于混合云的Spark技术助力数据科学转型

本讲义出自Seth Dobrin在Spark Summit East 2017上的演讲,主要分享了如何基于混合云上的Spark技术以及Kafka帮助数据科学进行变革转型. 大多数企业的业务还是需要在之前的环境中运行,简单粗暴地上云绝对不是大多数公司的选择.迁移上云需要大量的数据和应用,而在使用围绕数据的应用建立数据资产的过程中,很关键的一个部分就是需要用到Spark以及一些开源工具.如果非要等到大型企业都以经准备好上云时,你已经错失了使用混合云的最佳时机,而混合云却能为我们在构建长期的云计算策略

【Spark Summit East 2017】基于Spark构建的Netflix推荐ML Pipeline

本讲义出自Tsai在Spark Summit East 2017上的演讲,主要介绍了Netflix如何使用Apache Spark作为分布式计算框架以及机器学习技术来构建自己的算法来为8000万以上的用户进行个性化推荐,并介绍了在面对Netflix量级的用户带来的挑战中使用的技术和遇到的陷阱.

【Spark Summit East 2017】Ernest:基于Spark的性能预测大规模分析框架

本讲义出自Shivaram Venkataraman在Spark Summit East 2017上的演讲,近期使用Spark进行机器学习,基因组学和科学分析呈现增长的趋势,然而将这些应用部署在云计算平台上是有一定挑战性的,而应对上述挑战的关键在于有能力预测的应用程序在保持高性能的状态下所需要的资源配置,这样就可以自动选择最优配置.本讲义主要介绍了Ernest--性能预测大规模分析的框架.