【Spark Summit EU 2016】摆脱传统ETL,让我们走向Spark吧!

本讲义出自Bas Geerdink在Spark Summit EU 2016上的演讲,主要介绍了什么是ETL,其实ETL就是对于数据的提取、转换、加载(Extract-Transform-Load),并介绍了ETL的一些常用工具,除此之外,Bas Geerdink着重介绍了为什么要用Spark来做ETL,并对于一些代码示例进行了分享。

时间: 2024-10-06 22:38:45

【Spark Summit EU 2016】摆脱传统ETL,让我们走向Spark吧!的相关文章

【Spark Summit EU 2016】在多核机器上提升Spark性能

本讲义出自Qifan Pu在Spark Summit EU 2016上的演讲,主要介绍了如何在多核机器上提升Spark的性能表现以及如何研究和实现内存shuffle. 因为Spark开始时是作为集群计算框架出现的,所以产生了多核机器上关于Spark的性能表现的研究,Spark的设计是基于多计算节点的,本讲义中Qifan Pu着重探讨了数据交互也就是shuffle.

【Spark Summit EU 2016】SparkSheet:将电子表格转化进Spark DataFrame

本讲义出自Oscar Castaneda在Spark Summit EU上的演讲,主要介绍了将在Excel电子表格制作的Spark原型转化为Spark程序的SparkSheet,其可以看做是Excel编译器,可以构建从Excel转化为Spark程序的直接通路,本讲义还介绍了SparkSheet的架构体系以及整个的编译过程. Spark程序的原型可以使用Excel对其进实现,但是将Excel形式手动转化成为Spark程序却非常繁琐并且容易出错.构建Excel形式与Spark程序之间转化的直接路径可

【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

本讲义出自Sital Kedia在Spark Summit EU上的演讲,主要介绍了60 TB+数据规模的Spark产品用例,他在开始时首先介绍了实体排序的用例,然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式,并对于两种实现方式进行了对比.最后还分享了关于Spark的可靠性.性能的提升技巧以及配置调优技巧.

【Spark Summit EU 2016】Spark数据感知

本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲,聚合了物联网.社交网络和电信数据的应用在"玩具"数据集上运行的非常好,但是将应用部署到真实的数据集上时就没有看上去那么合适了,事实上可能变得令人惊讶的缓慢甚至会崩溃,这就是所谓的数据倾斜(data-skew),为了应对这一问题,Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架.本讲义就介绍了这个基于Spark的数据感知分布式数据处理框架的技术细节.

【Spark Summit EU 2016】Spark如何赋能聚合型应用新浪潮

本讲义出自Tug Grall在Spark Summit EU上的演讲,主要分享了Spark如何赋能聚合型应用,使得既能够通过实时的线上计算分析保证数据的实时性价值,也能通过离线计算获取大量数据所产生的的价值,从而360度地挖掘出数据的价值. 随着Hadoop以及Spark技术的不断发展,工作的时延也不断缩小,从Hadoop小时级别的时延一直发展到目前Spark流计算毫秒级别的时延.无论对于数据分析还是ETL而言,数据的价值都会随着时间的流逝而大大降低,但是随着数据量的增多,价值将会增加. 为了保

【Spark Summit EU 2016】基于Spark+Lucene构建近实时预测模型

本讲义出自Debasish Das与Pramod Narasimha在Spark Summit EU 2016上的演讲,主要介绍了基于Spark和Lucene构建的近实时预测模型.

【Spark Summit EU 2016】沃森媒体分析系统:从单租户Hadoop到3000租户Spark的架构演进

本讲义出自Ruben Pulido和Behar Veliqi在Spark Summit EU 2016上的演讲,主要介绍了IBM公司的沃森媒体分析系统,介绍了该系统之前针对于单租户的架构,所需面对的多租户挑战和面对该挑战产生出的新系统架构. 在讲义的最后Ruben Pulido和Behar Veliqi总结了从沃森媒体分析系统架构演变过程中所获取的经验,新的发展途径可能会基于Spark.Kafka和Zookeeper,并将具有健壮性的特点,能够满足延迟和吞吐量的需求,并且能够支持更多的分析.

【Spark Summit EU 2016】从使用Spark Streaming中所学到的经验

本讲义出自Miklos Christine在Spark Summit EU 2016上的演讲,简单介绍了DataBricks,并主要介绍了Spark Streaming的总体架构设计,Spark Streaming与结构化的流计算相比的不同之处以及目前阶段Spark Streaming的5大问题:类型不匹配.无法找到主要偏移量.toDF不属于RDD成员.任务不是序列化的以及有关JSON记录的相关问题.

【Spark Summit EU 2016】基于Spark的分布式计算,提升业务洞察力

本讲义出自Stephan Kessler在Spark Summit EU 2016上的演讲,主要介绍了目前商业智能的相关技术蓝图,并且从业务应用和大数据以及数据科学的角度谈论了目前商业智能蓝图中的不足,并分享了在Spark上集成的业务功能以及如何在Spark上利用不同来源的数据,并对HANA Vora 1.3进行了介绍.