【Spark Summit EU 2016】在在线学习中使用Structured Streaming流数据处理引擎

本讲义出自Ram Sriharsha与Vlad Feinberg在Spark Summit EU上的演讲,首先介绍了什么是在线学习,其实在线学习的主要特点就是在每个数据点都会更新数据参数,但是却无法再次访问之前的数据点。在演讲中还分享了在线学习的优点以及目前分布式在线学习所面临的挑战,之后还介绍了Structured Streaming流数据处理引擎,以及基于Structured Streaming的机器学习模型。

时间: 2024-09-23 17:57:53

【Spark Summit EU 2016】在在线学习中使用Structured Streaming流数据处理引擎的相关文章

【Spark Summit EU 2016】在数据仓库中引入Dataframes+Parquet

本讲义出自Sol Ackerman与Franklyn D'souza在Spark Summit EU上的演讲,在已存在的数据仓库中使用Dataframes+Parquet的经验方法,实现了在保证原有代码的情况下,引进Dataframes+Parquet,并且重写比较慢的工作作为Dataframes的管道,用Spark对从输入端流入的数据进行处理并输出.

【Spark Summit EU 2016】汽车研发中基于Spark的时间序列分析

本讲义出自Miha Pelko与Til Piffl在Spark Summit EU上的演讲,主要介绍了汽车行业目前已经成为了主要的数据产生者,由于汽车行业的数据问题比较特殊,所以需要进行并行的时间序列分析.除此之外还介绍了关于多传感器时间序列分析的Spark API--DaSense,并行状态机在汽车行业的使用以及并行的大数据解决方案.

【Spark Summit EU 2016】从Spark中学会的问题解决秘诀

本讲义出自Stavros kontopoulos与Justin Pihony在Spark Summit EU 2016上的演讲,在演讲中他们分享了内存空间不足问题(OOM).该方法不存在问题.大小混乱问题以及安全的流恢复问题,以及如何使用Spark解决相应的问题.

【Spark Summit EU 2016】经验分享:将SparkR用于生产环境下的数据科学应用中

本讲义出自Heiko Korndorf在Spark Summit EU 2016上的演讲,主要分享了R语言以及现实场景下使用R语言进行数据分析的应用案例,并且将引领大家使用SparkR扩展R语言应用,并介绍了SparkR1.X和2.X架构,并介绍了这两个版本的SparkR分别如何获取. 除此之外,Heiko Korndorf还分享了如何使用SparkR将数据科学与数据工程集成到一起,将SparkR用于生产环境下的数据科学应用中,并对于Spark无限发展空间的生态系统进行了展望.

【Spark Summit EU 2016】物联网中的Lambda架构——使用Spark Streaming与MLlib进行快速数据分析

本讲义出自Bas Geerdink在Spark Summit EU 2016上的演讲,主要介绍了物联网时代新的数据形式.新的用例.新的技术以及新的挑战,并介绍了什么是快速数据以及什么是大数据,并详细地介绍了物联网中的Lambda架构,流处理和批处理的相关内容以及如何使用Spark Streaming与MLlib进行快速数据分析.

【Spark Summit EU 2016】Spark中的自动检查点

本讲义出自Nimbus Goehausen在Spark Summit EU 2016上的演讲,主要介绍了面对需要自动保证Spark的数据来源以及存储路径正确,并且在对于需要保存的数据进行保存而对于需要改变的数据进行改变,所以需要在Spark工作流中使用自动检查点来对以上要求进行保障,本讲义就主要介绍了Spark中自动检查点的设计动机.工作原理以及使用方法.

【Spark Summit EU 2016】从使用Spark Streaming中所学到的经验

本讲义出自Miklos Christine在Spark Summit EU 2016上的演讲,简单介绍了DataBricks,并主要介绍了Spark Streaming的总体架构设计,Spark Streaming与结构化的流计算相比的不同之处以及目前阶段Spark Streaming的5大问题:类型不匹配.无法找到主要偏移量.toDF不属于RDD成员.任务不是序列化的以及有关JSON记录的相关问题.

【Spark Summit EU 2016】Apptopia:仅凭勇气、速度与Spark集群,构建APP市场

本讲义出自Johnathan Mercer在Spark Summit EU 2016上的演讲,主要介绍了作为移动应用智能公司的Apptopia,Apptopia致力于解决移动应用市场的问题,他们通过Spark将共有数据以及自己的私有数据进行结合,并利用结合后的数据进行分析预测. Johnathan Mercer还分享了Spark以及开源工具如何改变了Apptopia,以及从改变中学习到的四点经验.

【Spark Summit EU 2016】沃森媒体分析系统:从单租户Hadoop到3000租户Spark的架构演进

本讲义出自Ruben Pulido和Behar Veliqi在Spark Summit EU 2016上的演讲,主要介绍了IBM公司的沃森媒体分析系统,介绍了该系统之前针对于单租户的架构,所需面对的多租户挑战和面对该挑战产生出的新系统架构. 在讲义的最后Ruben Pulido和Behar Veliqi总结了从沃森媒体分析系统架构演变过程中所获取的经验,新的发展途径可能会基于Spark.Kafka和Zookeeper,并将具有健壮性的特点,能够满足延迟和吞吐量的需求,并且能够支持更多的分析.