【Spark Summit East 2017】迈向实时:为个性化创建不断更新频率的数据集

本讲义出自Shriya Arora在Spark Summit East 2017上的演讲,主要介绍了NETFLIX使用Spark处理个性化数据集空间的经验,并分享了使用流处理大规模的个性化数据集的案例,对于从批处理到流计算的转型意识以及这一过程中必须要面对的技术挑战。

时间: 2024-11-14 12:37:56

【Spark Summit East 2017】迈向实时:为个性化创建不断更新频率的数据集的相关文章

【Spark Summit East 2017】实时业务数据分析

本讲义出自Manish Gupta在Spark Summit East 2017上的演讲,当Redis作为分布式共享内存数据存储来进行类似时间序列数据范围查询分析的时候可以帮助Spark加速45倍.使用Redis的机器学习模型redis-ml将可以允许多应用程序同时使用相同的模型,并对于这些模型的分类和执行进行加速.

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.

【Spark Summit East 2017】 使用Kafka Connect和Spark Streaming构建实时数据管道

本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具-- Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道.

【Spark Summit East 2017】使用Spark与Kafka构建Second Look业务用例实时平台

本讲义出自Ivy Lu在Spark Summit East 2017上的演讲,主要介绍了如何使用Spark与Kafka创建一个重新审视用例的实时平台Second Look,Second Look是由Capital One构建的用于检测并通知持卡人一些潜在的错误和意想不到的费用的实时业务平台.本讲义分享了Second Look设计思路以及相关技术细节.

【Spark Summit East 2017】WalmartLabs近实时搜索索引的Lambda处理

本讲义出自Snehal Nagmote在Spark Summit East 2017上的演讲,WalmartLabs每天都在获取数以百万计的产品信息,为了寻求为客户提供无缝的购物体验,WalmartLabs开发了接近实时索引的数据管道,该数据管道是动态更新产品目录以及其他特性的关键的组件.演讲中还分享了WalmartLabs的实时搜索索引的Lambda处理方法以及如何对于数据管道进行自动部署.

【Spark Summit East 2017】分布式实时流处理:Why and How

本讲义出自Petr Zapletal在Spark Summit East 2017上的演讲,最近一段时期,流处理的需求增加了很多,需要将不同来源快速增长的大量数据进行处理限制了很多的传统的数据处理基础设施,而很多的开源软件平台开始出现解决这个问题,然而相同的问题会有不同的解决方案,本讲义就探讨了如何对于分布式实时流进行处理.

【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎

本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战.

【Spark Summit East 2017】使用Spark MLlib和Apache Solr构建实时实体类型识别系统

本讲义出自Khalifeh Aljadda在Spark Summit East 2017上的演讲,由于实体查询系统中的查询一般比较短,所以由于缺少上下文信息,所以不适合使用传统的bag-of-words模型来确定实体类型,本讲义介绍了一个新颖的实体类型识别系统,该系统使用Spark MLlib和Apache Solr构建,能够结合不同来源的线索来分析出需要查询实体.

【Spark Summit East 2017】在AdTech使用Spark对于产品管道进行研发

本讲义出自Maximo Gurmendez , Saket Mengle与Sunanda Parthasarathy 在Spark Summit East 2017上的演讲,主要介绍了DataXu,其核心能力是应用数据分析来获取更好的市场,其核心是每天处理2 Petabytes数据并且每秒响应来自五大洲的210万个请求的广告拍卖的实时竞价平台,演讲中将分享使用Apache Spark 框架和Databricks的DataXu成功用例,演讲将分享整个从研发到ETL处理以及建模等工作的整个过程.