【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想。

时间: 2024-11-03 02:30:07

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测的相关文章

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.

【Spark Summit East 2017】 使用Kafka Connect和Spark Streaming构建实时数据管道

本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具-- Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道.

【Spark Summit East 2017】Spark中的草图数据和T-Digest

本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化.优化数据编码.估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示.分位数估计以及数据合成的作用.

【Spark Summit East 2017】Spark SQL:Tungsten之后另一个可以达到16倍速度的利器

本讲义出自Brad Carlile在Spark Summit East 2017上的演讲,主要介绍了Oracle公司的创新产品:Spark SQL,并介绍了使用Spark SQL创新特性以及在Spark ML生成的新特性,并探讨了工作负载在规模和复杂的相互作用,最后还介绍了最佳实践和调优建议.

【Spark Summit East 2017】Spark + Flashblade

本讲义出自Brian Gold在Spark Summit East 2017上的演讲,现代基础设施和应用程序会产生大量的日志和遥测数据,Pure Storage能从工程台.制造伙伴和测试站的运行的存储系统获取超过5PB第一手日志数据,演讲中介绍了Pure Storage公司从扩展数据仓库以及利用Apache Spark的功能满足分析需求的过程中吸取的经验教训.

【Spark Summit East 2017】Spark化数据引擎

本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例.

【Spark Summit East 2017】Spark:将数据科学作为服务

本讲义出自Sridhar Alla与Shekhar Agrawal 在Spark Summit East 2017上的演讲,演讲中展示了许多使用逻辑回归.随机森林.决策树.聚类以及NLP等等常用算法的常见用例,并介绍了comcast构建的平台,该平台提供了基于Spark上构建的带有REST API的DSaaS,这意味这对很多用户而言比较抽象的控制和提交等工作,用户可以不再需要考虑写作的严谨性而只需要关注实际需求.

【Spark Summit East 2017】Spark自动调谐

本讲义出自Lawrence Spracklen 在Spark Summit East 2017上的演讲,主要介绍了Lawrence Spracklen 与团队研发的算法,介绍了如何充分利用被分析的数据的大小,并分享了在分析操作中如何规划流,集群规模,配置和实时利用率以及配置使得Spark的工作性能达到峰值.

【Spark Summit East 2017】Spark上基因组分析的算法和工具

本讲义出自Ryan Williams在Spark Summit East 2017上的演讲,主要介绍了Hammer构建于Spark上的几个基因数据分析工具以及使用RDDs进行一般性计算的库,并分享了其中最有趣的几个应用程序和算法:Guacamole.Pageant以及Magic RDDs.