【Spark Summit East 2017】基于混合云的Spark技术助力数据科学转型

本讲义出自Seth Dobrin在Spark Summit East 2017上的演讲,主要分享了如何基于混合云上的Spark技术以及Kafka帮助数据科学进行变革转型。

大多数企业的业务还是需要在之前的环境中运行,简单粗暴地上云绝对不是大多数公司的选择。迁移上云需要大量的数据和应用,而在使用围绕数据的应用建立数据资产的过程中,很关键的一个部分就是需要用到Spark以及一些开源工具。如果非要等到大型企业都以经准备好上云时,你已经错失了使用混合云的最佳时机,而混合云却能为我们在构建长期的云计算策略的同时提供在云上使用Spark等开源技术的机会。

时间: 2024-09-20 12:32:01

【Spark Summit East 2017】基于混合云的Spark技术助力数据科学转型的相关文章

【Spark Summit East 2017】混合云上的Spark:为何安全和治理变得愈发重要?

本讲义出自Arun Murthy在Spark Summit East 2017上的演讲,主要分享了在混合云上的Spark技术飞速发展的今天,为什么安全和治理变得越来越重要. 如今很多应用一方面连接着企业自建的数据中心,另一方面连接着云平台,如此形成了混合云的架构体系,实现了公有云与私有数据中心的数据互联互通.而对于混合云上的Spark技术而言,安全和治理变得愈发重要,在Arun Murthy的分享中就以几个实际的案例进行了说明和阐述.

【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究

本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作.除此之外还介绍了名为PAT的内部数据分析框架,并介绍了如何使用PAT快速建立Spark与虚拟机合适的配置组合来优化对于云的硬件资源以及Spark计算并行性的使用.

【Spark Summit East 2017】EasyMapReduce:利用Spark与Docker以MapReduce方式赋能大规模科学工具

本讲义出自Marco Cappucini在Spark Summit East 2017上的演讲,主要介绍了如何通过借助Spark和Docker在分布式数据集上使串行软件能够并行运行,瑞典的Uppsala大学开发了基于Spark的能够以MapReduce方式运行Docker容器的实用程序EasyMapReduce,分享了面对处理大型分布式数据集的挑战,EasyMapReduce是如何帮助实现科学研究的.

【Spark Summit East 2017】Apache Toree:Spark的一种Jupyter内核

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,主要介绍了Toree的设计思想,Toree如何与Jupyter生态系统交互,以及用户如何借助强大的插件系统来扩展Apache Toree的功能. 目前许多数据科学家已经在利用Jupyter生态系统并进行数据分析,正在孵化中的Apache Toree是设计用于作为Spark网关,Apache Toree能让用户遵守Jupyter标准,这将允许用户非常简单地将Spark集成到已有的Jupyter生态

【Spark Summit East 2017】使用Alluxio提升Spark效率

本讲义出自Gene Pang与Haoyuan  Li在Spark Summit East 2017上的演讲,主要介绍了Alluxio,前身为Tachyon,是内存加速虚拟分布式存储系统,该系统可以利用内存存储数据,并且加速访问从不同的数据存储系统的数据.Alluxio拥有迅速成长的开源社区,并且已经被部署在阿里巴巴.百度以及Intel等,Alluxio可以提高Spark的效率,并为Spark与各中存储系统之间搭建桥梁,进一步对于数据密集型应用程序进行加速.

【Spark Summit East 2017】在AdTech使用Spark对于产品管道进行研发

本讲义出自Maximo Gurmendez , Saket Mengle与Sunanda Parthasarathy 在Spark Summit East 2017上的演讲,主要介绍了DataXu,其核心能力是应用数据分析来获取更好的市场,其核心是每天处理2 Petabytes数据并且每秒响应来自五大洲的210万个请求的广告拍卖的实时竞价平台,演讲中将分享使用Apache Spark 框架和Databricks的DataXu成功用例,演讲将分享整个从研发到ETL处理以及建模等工作的整个过程.

【Spark Summit East 2017】虚拟化分析,Spark是最好的答案么?

本讲义出自Arsalan Tavakoli在Spark Summit East 2017上的演讲,主要对于虚拟化分析的技术路线的发展进行了探讨. 对于企业而言,往往希望数据积累的越多,获取的智能也就越多.但是怎样才能做到这一点呢?其实需要依靠三大支撑:数据.分析以及人.面对参差不齐并且传播速度非常快的大量数据,多种多样,越来越复杂的分析手段以及需要涉及更多的人.更多的职责以及人与人之间工作交接的低效的挑战,今天的技术栈足以应对了么? 从最初的数据仓库.到第二代的Hadoop+Data Lake,

【Spark Summit East 2017】提升Python与Spark的性能和互操作性

本讲义出自Wes McKinney在Spark Summit East 2017上的演讲,对于使用Python编程以及并行化和扩大数据处理方面,Spark已成为一个受欢迎和成功的框架,但是在很多案例中,使用PySpark的任务处理要比使用Scala编写的效率差,而且在Python环境与Spark主机之间推拉数据也将增加开销,本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题.

【Spark Summit East 2017】为容器优化Spark部署:隔离、安全与性能

本讲义出自William Benton在Spark Summit East 2017上的演讲,主要分享了容器的Linux安全性.分布式调度以及Java虚拟机以及安全性影响等,并介绍了对于容器化的Spark应用程序进行调优和编排,并分享了数据处理工作负载,以及代理的最佳实践和技巧等.