【Spark Summit East 2017】Spark:将数据科学作为服务

本讲义出自Sridhar Alla与Shekhar Agrawal 在Spark Summit East 2017上的演讲,演讲中展示了许多使用逻辑回归、随机森林、决策树、聚类以及NLP等等常用算法的常见用例,并介绍了comcast构建的平台,该平台提供了基于Spark上构建的带有REST API的DSaaS,这意味这对很多用户而言比较抽象的控制和提交等工作,用户可以不再需要考虑写作的严谨性而只需要关注实际需求。

时间: 2024-12-13 15:22:22

【Spark Summit East 2017】Spark:将数据科学作为服务的相关文章

【Spark Summit East 2017】大数据赋能机器学习

本讲义出自Jiao Wang与Yiheng Wang在Spark Summit East 2017上的演讲,在今天的互联网应用和新兴智能系统中,人工智能扮演着非常重要的角色,这驱动着需求的扩展以及分布式大数据分析能力与深度学习的能力的提升.在演讲中Jiao Wang与Yiheng Wang分享了Intel以及用户使用开源的Apache Spark分布式深度学习库BigDL构建的大数据机器学习应用.

【Spark Summit East 2017】大数据应用的工程快速索引(深度挖掘)

本讲义出自Daniel Lemire在Spark Summit East 2017上的演讲,主要介绍了对了应对高性能编程的挑战,分享了Daniel Lemire及团队在侧重于压缩位图索引设计快速索引时吸取的经验教训.

【Spark Summit East 2017】基于SparkR的可伸缩数据科学

本讲义出自Felix Cheung在Spark Summit East 2017上的演讲,R是一个非常受欢迎的科学数据平台,而Apache Spark是一个高度可扩展的数据平台,SparkR结合了两者的优点,本讲义介绍了关于SparkR的相关内容以及Spark 2.x版本的新特性.

【Spark Summit East 2017】基于混合云的Spark技术助力数据科学转型

本讲义出自Seth Dobrin在Spark Summit East 2017上的演讲,主要分享了如何基于混合云上的Spark技术以及Kafka帮助数据科学进行变革转型. 大多数企业的业务还是需要在之前的环境中运行,简单粗暴地上云绝对不是大多数公司的选择.迁移上云需要大量的数据和应用,而在使用围绕数据的应用建立数据资产的过程中,很关键的一个部分就是需要用到Spark以及一些开源工具.如果非要等到大型企业都以经准备好上云时,你已经错失了使用混合云的最佳时机,而混合云却能为我们在构建长期的云计算策略

【Spark Summit East 2017】Spark中的草图数据和T-Digest

本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化.优化数据编码.估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示.分位数估计以及数据合成的作用.

【Spark Summit East 2017】使用Spark对仙女星系数据进行分析

本讲义出自Jose Nandez在Spark Summit East 2017上的演讲,主要介绍了使用Spark与Python API对于仙女星系的数据进行交互式数据分析,Spark-Python代码充分利用了Spark RDDs进行查询来帮助预测某一对像是否属于仙女星系.

【Spark Summit East 2017】R与Spark:如何使用RStudio的 Sparklyr和H2O的 Rsparkling分析数据

本讲义出自Nathan Stephens在Spark Summit East 2017上的演讲,Sparklyr是一个让你在Spark中进行数据分析就像在R开发环境下进行数据分析的R语言包,Sparklyr 支持处理数据帧对象的常用工具dplyr的完整后端,你可以使用dplyr将R代码翻译成Spark SQL,Sparklyr还支持MLlib,所以你可以在分布式数据集上运行分类器以及回归.聚类.决策树等机器学习算法,讲义中演示了如何使用Sparklyr和Rsparkling分析数据.

【Spark Summit East 2017】 使用Kafka Connect和Spark Streaming构建实时数据管道

本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具-- Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道.

【Spark Summit East 2017】Spark化数据引擎

本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例.