【Spark Summit East 2017】混合云上的Spark：为何安全和治理变得愈发重要？

本讲义出自Arun Murthy在Spark Summit East 2017上的演讲，主要分享了在混合云上的Spark技术飞速发展的今天，为什么安全和治理变得越来越重要。

如今很多应用一方面连接着企业自建的数据中心，另一方面连接着云平台，如此形成了混合云的架构体系，实现了公有云与私有数据中心的数据互联互通。而对于混合云上的Spark技术而言，安全和治理变得愈发重要，在Arun Murthy的分享中就以几个实际的案例进行了说明和阐述。

时间： 2024-07-29 09:54:10

【Spark Summit East 2017】混合云上的Spark：为何安全和治理变得愈发重要？的相关文章

【Spark Summit East 2017】Apache Toree：Spark的一种Jupyter内核

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,主要介绍了Toree的设计思想,Toree如何与Jupyter生态系统交互,以及用户如何借助强大的插件系统来扩展Apache Toree的功能. 目前许多数据科学家已经在利用Jupyter生态系统并进行数据分析,正在孵化中的Apache Toree是设计用于作为Spark网关,Apache Toree能让用户遵守Jupyter标准,这将允许用户非常简单地将Spark集成到已有的Jupyter生态

【Spark Summit East 2017】使用Alluxio提升Spark效率

本讲义出自Gene Pang与Haoyuan Li在Spark Summit East 2017上的演讲,主要介绍了Alluxio,前身为Tachyon,是内存加速虚拟分布式存储系统,该系统可以利用内存存储数据,并且加速访问从不同的数据存储系统的数据.Alluxio拥有迅速成长的开源社区,并且已经被部署在阿里巴巴.百度以及Intel等,Alluxio可以提高Spark的效率,并为Spark与各中存储系统之间搭建桥梁,进一步对于数据密集型应用程序进行加速.

【Spark Summit East 2017】在AdTech使用Spark对于产品管道进行研发

本讲义出自Maximo Gurmendez , Saket Mengle与Sunanda Parthasarathy 在Spark Summit East 2017上的演讲,主要介绍了DataXu,其核心能力是应用数据分析来获取更好的市场,其核心是每天处理2 Petabytes数据并且每秒响应来自五大洲的210万个请求的广告拍卖的实时竞价平台,演讲中将分享使用Apache Spark 框架和Databricks的DataXu成功用例,演讲将分享整个从研发到ETL处理以及建模等工作的整个过程.

【Spark Summit East 2017】虚拟化分析，Spark是最好的答案么？

本讲义出自Arsalan Tavakoli在Spark Summit East 2017上的演讲,主要对于虚拟化分析的技术路线的发展进行了探讨. 对于企业而言,往往希望数据积累的越多,获取的智能也就越多.但是怎样才能做到这一点呢?其实需要依靠三大支撑:数据.分析以及人.面对参差不齐并且传播速度非常快的大量数据,多种多样,越来越复杂的分析手段以及需要涉及更多的人.更多的职责以及人与人之间工作交接的低效的挑战,今天的技术栈足以应对了么? 从最初的数据仓库.到第二代的Hadoop+Data Lake,

【Spark Summit East 2017】提升Python与Spark的性能和互操作性

本讲义出自Wes McKinney在Spark Summit East 2017上的演讲,对于使用Python编程以及并行化和扩大数据处理方面,Spark已成为一个受欢迎和成功的框架,但是在很多案例中,使用PySpark的任务处理要比使用Scala编写的效率差,而且在Python环境与Spark主机之间推拉数据也将增加开销,本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题.

【Spark Summit East 2017】EasyMapReduce：利用Spark与Docker以MapReduce方式赋能大规模科学工具

本讲义出自Marco Cappucini在Spark Summit East 2017上的演讲,主要介绍了如何通过借助Spark和Docker在分布式数据集上使串行软件能够并行运行,瑞典的Uppsala大学开发了基于Spark的能够以MapReduce方式运行Docker容器的实用程序EasyMapReduce,分享了面对处理大型分布式数据集的挑战,EasyMapReduce是如何帮助实现科学研究的.

【Spark Summit East 2017】Ernest：基于Spark的性能预测大规模分析框架

本讲义出自Shivaram Venkataraman在Spark Summit East 2017上的演讲,近期使用Spark进行机器学习,基因组学和科学分析呈现增长的趋势,然而将这些应用部署在云计算平台上是有一定挑战性的,而应对上述挑战的关键在于有能力预测的应用程序在保持高性能的状态下所需要的资源配置,这样就可以自动选择最优配置.本讲义主要介绍了Ernest--性能预测大规模分析的框架.

【Spark Summit East 2017】为容器优化Spark部署：隔离、安全与性能

本讲义出自William Benton在Spark Summit East 2017上的演讲,主要分享了容器的Linux安全性.分布式调度以及Java虚拟机以及安全性影响等,并介绍了对于容器化的Spark应用程序进行调优和编排,并分享了数据处理工作负载,以及代理的最佳实践和技巧等.

【Spark Summit East 2017】从容器化Spark负载中获取的经验

本讲义出自Tom Phelan在Spark Summit East 2017上的演讲,主要介绍了在Spark集群上部署分布式大数据应用程序面对的容器生命周期管理.智能调度优化资源利用率.网络配置和安全以以及性能等诸多挑战,Tom Phelan探讨了如何实现高可用性的分布式大数据应用和数据中心主机,并分享了学到的经验教训,并对于如何在一个可靠的.可伸缩的.高性能的环境将大数据应用程序容器化给出了一些提示.

【Spark Summit East 2017】企业如何通过Spark挤入人工智能快车道

本讲义出自Mike Gualtieri在Spark Summit East 2017上的演讲,主要分享了企业如何充分利用Spark在人工智能的研究中取得一席之地,以及人工智能如何帮助企业优化产品的用户体验. 对于企业而言,用户体验和产品的创新性是应该考虑的首要问题.对于用户体验而言,客户希望企业就像老朋友一样了解他们.为了满足所谓的超人际用户体验,产品必须能够学习.预测和适应.为了使得产品能够实现以上的需求,就需要人工智能.目前而言,在人工智能方面进行投资的企业都希望能够在用户体验以及业务模型等