【Spark Summit EU 2016】物联网中的Lambda架构——使用Spark Streaming与MLlib进行快速数据分析

本讲义出自Bas Geerdink在Spark Summit EU 2016上的演讲,主要介绍了物联网时代新的数据形式、新的用例、新的技术以及新的挑战,并介绍了什么是快速数据以及什么是大数据,并详细地介绍了物联网中的Lambda架构,流处理和批处理的相关内容以及如何使用Spark Streaming与MLlib进行快速数据分析。

时间: 2024-10-07 04:38:53

【Spark Summit EU 2016】物联网中的Lambda架构——使用Spark Streaming与MLlib进行快速数据分析的相关文章

【Spark Summit EU 2016】在多核机器上提升Spark性能

本讲义出自Qifan Pu在Spark Summit EU 2016上的演讲,主要介绍了如何在多核机器上提升Spark的性能表现以及如何研究和实现内存shuffle. 因为Spark开始时是作为集群计算框架出现的,所以产生了多核机器上关于Spark的性能表现的研究,Spark的设计是基于多计算节点的,本讲义中Qifan Pu着重探讨了数据交互也就是shuffle.

【Hadoop Summit Tokyo 2016】使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析

本讲义出自Pankaj Rastogi与Debasish Das在Hadoop Summit Tokyo 2016上的演讲,主要分享了网络数据相关知识.网络异常DDoS攻击以及使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析的架构设计,并分享了Trapezium的相关概念.

【Spark Summit EU 2016】SparkSheet:将电子表格转化进Spark DataFrame

本讲义出自Oscar Castaneda在Spark Summit EU上的演讲,主要介绍了将在Excel电子表格制作的Spark原型转化为Spark程序的SparkSheet,其可以看做是Excel编译器,可以构建从Excel转化为Spark程序的直接通路,本讲义还介绍了SparkSheet的架构体系以及整个的编译过程. Spark程序的原型可以使用Excel对其进实现,但是将Excel形式手动转化成为Spark程序却非常繁琐并且容易出错.构建Excel形式与Spark程序之间转化的直接路径可

【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

本讲义出自Sital Kedia在Spark Summit EU上的演讲,主要介绍了60 TB+数据规模的Spark产品用例,他在开始时首先介绍了实体排序的用例,然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式,并对于两种实现方式进行了对比.最后还分享了关于Spark的可靠性.性能的提升技巧以及配置调优技巧.

【Spark Summit EU 2016】从Spark中学会的问题解决秘诀

本讲义出自Stavros kontopoulos与Justin Pihony在Spark Summit EU 2016上的演讲,在演讲中他们分享了内存空间不足问题(OOM).该方法不存在问题.大小混乱问题以及安全的流恢复问题,以及如何使用Spark解决相应的问题.

【Spark Summit EU 2016】经验分享:将SparkR用于生产环境下的数据科学应用中

本讲义出自Heiko Korndorf在Spark Summit EU 2016上的演讲,主要分享了R语言以及现实场景下使用R语言进行数据分析的应用案例,并且将引领大家使用SparkR扩展R语言应用,并介绍了SparkR1.X和2.X架构,并介绍了这两个版本的SparkR分别如何获取. 除此之外,Heiko Korndorf还分享了如何使用SparkR将数据科学与数据工程集成到一起,将SparkR用于生产环境下的数据科学应用中,并对于Spark无限发展空间的生态系统进行了展望.

【Spark Summit EU 2016】Spark中的自动检查点

本讲义出自Nimbus Goehausen在Spark Summit EU 2016上的演讲,主要介绍了面对需要自动保证Spark的数据来源以及存储路径正确,并且在对于需要保存的数据进行保存而对于需要改变的数据进行改变,所以需要在Spark工作流中使用自动检查点来对以上要求进行保障,本讲义就主要介绍了Spark中自动检查点的设计动机.工作原理以及使用方法.

【Spark Summit EU 2016】从使用Spark Streaming中所学到的经验

本讲义出自Miklos Christine在Spark Summit EU 2016上的演讲,简单介绍了DataBricks,并主要介绍了Spark Streaming的总体架构设计,Spark Streaming与结构化的流计算相比的不同之处以及目前阶段Spark Streaming的5大问题:类型不匹配.无法找到主要偏移量.toDF不属于RDD成员.任务不是序列化的以及有关JSON记录的相关问题.

【Spark Summit EU 2016】Spark数据感知

本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲,聚合了物联网.社交网络和电信数据的应用在"玩具"数据集上运行的非常好,但是将应用部署到真实的数据集上时就没有看上去那么合适了,事实上可能变得令人惊讶的缓慢甚至会崩溃,这就是所谓的数据倾斜(data-skew),为了应对这一问题,Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架.本讲义就介绍了这个基于Spark的数据感知分布式数据处理框架的技术细节.