【Spark Summit East 2017】为Walmart Search学习使用Streaming和DataFrames

本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲,主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况,Walmart Lab目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架,该框架能够用于检测异常搜索信息。最后,还分享了Walmart Lab得出的观点:Spark Streaming与Data Frames是处理大规模实时数据流的关键技术。

时间: 2024-10-24 21:36:34

【Spark Summit East 2017】为Walmart Search学习使用Streaming和DataFrames的相关文章

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想.

【Spark Summit East 2017】Intel与Spark共同助推机器学习与深度学习

本讲义出自Ziya Ma在Spark Summit East 2017上的演讲,主要介绍了人工智能对于目前各个行业的深刻变革并将继续释放大量的能量,并且讲述了人工智能目前需要更进一步提升的需求点,并且介绍了应对人工智能的需求,Intel所研发的BigDL大数据分析框架. BigDL特性与CAFEE以及TORCH相似,对于用户和开发者而言,BigDL非常易于使用,并且所需成本比较低,而且能够使得深度学习在大数据平台上易于扩展,而且能够在单点上具有较高的性能.

【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库

本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了"高性能计算"和"大数据"的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储.数据处理和挖掘.机器学习以及深度学习等.

【Spark Summit East 2017】从巨型图中学习的神经网络

本讲义出自Daniel Darabos与Hanna Gabor 在Spark Summit East 2017上的演讲,为了应对在构建神经网络的训练过程中对于图形顶点的考虑问题的挑战,Daniel Darabos与Hanna Gabor和团队使用同一张图执行预测和训练的过程并且给出了一些训练的技巧,而为了应对图过大而无法在单个机器的内存内进行真正的资源密集型计算的问题,使用对于图的分布式存储和计算策略,同时还展示了来解决上述问题核心算法以及一些实验结果.

【Spark Summit East 2017】使用机器学习注释器和大规模深度学习本体进行语义自然语言理解

本讲义出自David Talby在Spark Summit East 2017上的演讲,主要介绍了一个通过自由文本格式的病人记录给出临床诊断推理和实时的参考意见的端到端系统,该系统的架构是构建在Kafka与Spark Streaming之上的,该系统可以实时地对于数据进行获取和加工,并使用Spark & MLLib进行建模,并通过Elasticsearch使得用户可以低延迟地对于结果进行访问.

【Spark Summit East 2017】大数据赋能机器学习

本讲义出自Jiao Wang与Yiheng Wang在Spark Summit East 2017上的演讲,在今天的互联网应用和新兴智能系统中,人工智能扮演着非常重要的角色,这驱动着需求的扩展以及分布式大数据分析能力与深度学习的能力的提升.在演讲中Jiao Wang与Yiheng Wang分享了Intel以及用户使用开源的Apache Spark分布式深度学习库BigDL构建的大数据机器学习应用.

【Spark Summit East 2017】可扩展性机器学习的特征哈希

本讲义出自Nick Pentreath在Spark Summit East 2017上的演讲,主要介绍了特征哈希是用于处理高维特性的一个功能强大的机器学习技术,特征哈希快速.简单.并且节约内存,而且适合在线学习场景,演讲中分享了特征哈希的基本功能,以及如何使用特征哈希在机器学习中的所有功能类型,并介绍了一个在Spark ML管道中使用的更加灵活和强大的转化器.

【Spark Summit East 2017】Spark,类型函数式编程的引诱者

本讲义出自Jeff Smith与Rohan Aletty在Spark Summit East 2017上的演讲,主要介绍了如何使用Spark作为学习工具,在函数式编程等领域构建技能栈,介绍了从基础工作Scala和函数式编程的概念到完全实现机器学习管道,并讲解了Spark以及MLlib.

【Spark Summit East 2017】企业如何通过Spark挤入人工智能快车道

本讲义出自Mike Gualtieri在Spark Summit East 2017上的演讲,主要分享了企业如何充分利用Spark在人工智能的研究中取得一席之地,以及人工智能如何帮助企业优化产品的用户体验. 对于企业而言,用户体验和产品的创新性是应该考虑的首要问题.对于用户体验而言,客户希望企业就像老朋友一样了解他们.为了满足所谓的超人际用户体验,产品必须能够学习.预测和适应.为了使得产品能够实现以上的需求,就需要人工智能.目前而言,在人工智能方面进行投资的企业都希望能够在用户体验以及业务模型等