【Spark Summit EU 2016】经验分享:将SparkR用于生产环境下的数据科学应用中

本讲义出自Heiko Korndorf在Spark Summit EU 2016上的演讲,主要分享了R语言以及现实场景下使用R语言进行数据分析的应用案例,并且将引领大家使用SparkR扩展R语言应用,并介绍了SparkR1.X和2.X架构,并介绍了这两个版本的SparkR分别如何获取。

除此之外,Heiko Korndorf还分享了如何使用SparkR将数据科学与数据工程集成到一起,将SparkR用于生产环境下的数据科学应用中,并对于Spark无限发展空间的生态系统进行了展望。

时间: 2024-08-01 10:07:58

【Spark Summit EU 2016】经验分享:将SparkR用于生产环境下的数据科学应用中的相关文章

【Spark Summit EU 2016】从使用Spark Streaming中所学到的经验

本讲义出自Miklos Christine在Spark Summit EU 2016上的演讲,简单介绍了DataBricks,并主要介绍了Spark Streaming的总体架构设计,Spark Streaming与结构化的流计算相比的不同之处以及目前阶段Spark Streaming的5大问题:类型不匹配.无法找到主要偏移量.toDF不属于RDD成员.任务不是序列化的以及有关JSON记录的相关问题.

【Spark Summit EU 2016】Apptopia:仅凭勇气、速度与Spark集群,构建APP市场

本讲义出自Johnathan Mercer在Spark Summit EU 2016上的演讲,主要介绍了作为移动应用智能公司的Apptopia,Apptopia致力于解决移动应用市场的问题,他们通过Spark将共有数据以及自己的私有数据进行结合,并利用结合后的数据进行分析预测. Johnathan Mercer还分享了Spark以及开源工具如何改变了Apptopia,以及从改变中学习到的四点经验.

【Spark Summit EU 2016】摆脱传统ETL,让我们走向Spark吧!

本讲义出自Bas Geerdink在Spark Summit EU 2016上的演讲,主要介绍了什么是ETL,其实ETL就是对于数据的提取.转换.加载(Extract-Transform-Load),并介绍了ETL的一些常用工具,除此之外,Bas Geerdink着重介绍了为什么要用Spark来做ETL,并对于一些代码示例进行了分享.

【Spark Summit EU 2016】沃森媒体分析系统:从单租户Hadoop到3000租户Spark的架构演进

本讲义出自Ruben Pulido和Behar Veliqi在Spark Summit EU 2016上的演讲,主要介绍了IBM公司的沃森媒体分析系统,介绍了该系统之前针对于单租户的架构,所需面对的多租户挑战和面对该挑战产生出的新系统架构. 在讲义的最后Ruben Pulido和Behar Veliqi总结了从沃森媒体分析系统架构演变过程中所获取的经验,新的发展途径可能会基于Spark.Kafka和Zookeeper,并将具有健壮性的特点,能够满足延迟和吞吐量的需求,并且能够支持更多的分析.

【Spark Summit EU 2016】基于Spark的分布式计算,提升业务洞察力

本讲义出自Stephan Kessler在Spark Summit EU 2016上的演讲,主要介绍了目前商业智能的相关技术蓝图,并且从业务应用和大数据以及数据科学的角度谈论了目前商业智能蓝图中的不足,并分享了在Spark上集成的业务功能以及如何在Spark上利用不同来源的数据,并对HANA Vora 1.3进行了介绍.

【Spark Summit EU 2016】Spark——打造处理石油工业数据的全球化计算引擎

本讲义出自Yaroslav Nedashkovsky与Andy Starzhinsky在Spark Summit EU 2016上的演讲,主要介绍了从数据收集到预测分析的石油行业的数据分析过程,分享了石油工业的概览,以及从数据源头到数据收集,再到数据分析的全过程,并且分享了如何利用Spark打造处理石油工业数据的全球化计算引擎.

【Spark Summit EU 2016】从Spark中学会的问题解决秘诀

本讲义出自Stavros kontopoulos与Justin Pihony在Spark Summit EU 2016上的演讲,在演讲中他们分享了内存空间不足问题(OOM).该方法不存在问题.大小混乱问题以及安全的流恢复问题,以及如何使用Spark解决相应的问题.

【Spark Summit EU 2016】规模不断扩展的服务器集群上Spark的性能表征

本讲义出自Ahsan Javed Awan在Spark Summit EU 2016上的演讲,主要介绍了在服务器集群的规模不断扩展的状态下,如何获取运行于服务器集群上的Spark的性能指标并对于性能进行优化,并分享了为了使得架构设计能够提升节点级别的性能表现,该如何确定衡量指标,以及如何设计可扩展的架构.

【Spark Summit EU 2016】Sparkling Water 2.0:下一代基于Spark的机器学习平台

本讲义出自Jakub Háva在Spark Summit EU 2016上的演讲,主要介绍了由开源的人工智能平台H2O.AI结合Spark构建的机器学习平台Sparkling Water,Sparkling Water集成了H2O平台与Spark生态系统,使用了H2O的数据结构以及算法与Spark的API,Sparkling Water平台将用于构建人工智能和机器学习的应用. Jakub Háva在演讲中,从建立模型.数据治理再到流处理等一系列如何使用Sparkling Water进行了分享,并