【Spark Summit East 2017】实时业务数据分析

本讲义出自Manish Gupta在Spark Summit East 2017上的演讲，当Redis作为分布式共享内存数据存储来进行类似时间序列数据范围查询分析的时候可以帮助Spark加速45倍。使用Redis的机器学习模型redis-ml将可以允许多应用程序同时使用相同的模型，并对于这些模型的分类和执行进行加速。

时间： 2024-11-14 12:51:08

【Spark Summit East 2017】实时业务数据分析的相关文章

【Spark Summit East 2017】用于数据分析的基于Kerberos的安全的Spark Notebook

本讲义出自Joy Chakraborty在Spark Summit East 2017上的演讲,主要介绍了为了使用Spark构建基于Kerberos的安全的JupyterHub笔记本所提出的技术设计和开发思想.在演讲中Joy Chakraborty着重介绍了Sparkmagic和Livy的功能以及Kerberos的集成技术.

【Spark Summit East 2017】使用Spark与Kafka构建Second Look业务用例实时平台

本讲义出自Ivy Lu在Spark Summit East 2017上的演讲,主要介绍了如何使用Spark与Kafka创建一个重新审视用例的实时平台Second Look,Second Look是由Capital One构建的用于检测并通知持卡人一些潜在的错误和意想不到的费用的实时业务平台.本讲义分享了Second Look设计思路以及相关技术细节.

【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎

本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战.

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.

【Spark Summit East 2017】使用Kafka Connect和Spark Streaming构建实时数据管道

本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具-- Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道.

【Spark Summit East 2017】WalmartLabs近实时搜索索引的Lambda处理

本讲义出自Snehal Nagmote在Spark Summit East 2017上的演讲,WalmartLabs每天都在获取数以百万计的产品信息,为了寻求为客户提供无缝的购物体验,WalmartLabs开发了接近实时索引的数据管道,该数据管道是动态更新产品目录以及其他特性的关键的组件.演讲中还分享了WalmartLabs的实时搜索索引的Lambda处理方法以及如何对于数据管道进行自动部署.

【Spark Summit East 2017】分布式实时流处理：Why and How

本讲义出自Petr Zapletal在Spark Summit East 2017上的演讲,最近一段时期,流处理的需求增加了很多,需要将不同来源快速增长的大量数据进行处理限制了很多的传统的数据处理基础设施,而很多的开源软件平台开始出现解决这个问题,然而相同的问题会有不同的解决方案,本讲义就探讨了如何对于分布式实时流进行处理.

【Spark Summit East 2017】Opaque：强安全性的数据分析平台

更多精彩内容参见大数据频道https://yq.aliyun.com/big-data:此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps. 本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,随着企业转向以云计算为基础进行数据分析,云安全漏洞的风险构成了严重的威胁.对数据进行加密是数据传输中的第一步,然而却必须在内存中进行解密,这就有可能暴露在被黑

【Spark Summit East 2017】使用Spark MLlib和Apache Solr构建实时实体类型识别系统

本讲义出自Khalifeh Aljadda在Spark Summit East 2017上的演讲,由于实体查询系统中的查询一般比较短,所以由于缺少上下文信息,所以不适合使用传统的bag-of-words模型来确定实体类型,本讲义介绍了一个新颖的实体类型识别系统,该系统使用Spark MLlib和Apache Solr构建,能够结合不同来源的线索来分析出需要查询实体.