【Spark Summit East 2017】大数据应用的工程快速索引(深度挖掘)

本讲义出自Daniel Lemire在Spark Summit East 2017上的演讲,主要介绍了对了应对高性能编程的挑战,分享了Daniel Lemire及团队在侧重于压缩位图索引设计快速索引时吸取的经验教训。


时间: 2024-10-06 01:20:53

【Spark Summit East 2017】大数据应用的工程快速索引(深度挖掘)的相关文章

【Spark Summit East 2017】使用机器学习注释器和大规模深度学习本体进行语义自然语言理解

本讲义出自David Talby在Spark Summit East 2017上的演讲,主要介绍了一个通过自由文本格式的病人记录给出临床诊断推理和实时的参考意见的端到端系统,该系统的架构是构建在Kafka与Spark Streaming之上的,该系统可以实时地对于数据进行获取和加工,并使用Spark & MLLib进行建模,并通过Elasticsearch使得用户可以低延迟地对于结果进行访问.

【Spark Summit East 2017】大数据赋能机器学习

本讲义出自Jiao Wang与Yiheng Wang在Spark Summit East 2017上的演讲,在今天的互联网应用和新兴智能系统中,人工智能扮演着非常重要的角色,这驱动着需求的扩展以及分布式大数据分析能力与深度学习的能力的提升.在演讲中Jiao Wang与Yiheng Wang分享了Intel以及用户使用开源的Apache Spark分布式深度学习库BigDL构建的大数据机器学习应用.

【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎

本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战.

【Spark Summit East 2017】管道泄漏问题:像女士一样在大数据中做个的标记

本讲义出自Kavitha Mariappan在Spark Summit East 2017上的演讲,主要介绍了如何应对大数据中的管道泄漏问题.

【Spark Summit East 2017】将HPC算法引入大数据平台

本讲义出自Nikolay Malitsky在Spark Summit East 2017上的演讲,主要介绍了使用轻量级源工具集开发的,基于MPI的Spark平台的扩展,扩展的背景和原理正如题目所示:将HPC算法引入大数据平台.

【Spark Summit East 2017】2017年大数据与Spark的发展趋势

本讲义出自Matei Zaharia在Spark Summit East 2017上的演讲,主要介绍了2016年以及2017年大数据与Spark技术的未来的汇合的发展趋势以及Databricks对于使Spark与像深度学习库这样的原生代码能够更好地进行交互所做的工作.

【Spark Summit East 2017】Spark化数据引擎

本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例.

【Spark Summit East 2017】使用Spark解锁设备数据的价值

本讲义出自John Landry在Spark Summit East 2017上的演讲,主要介绍了在惠普公司这样的大企业内部的数据分析的历程,在讲义中审查并挑战了惠普当时对于以Spark和Databricks最基础进入数据分析领域的决定,并分享了惠普如何使用从设备中获取的数据进行分析.

【Spark Summit East 2017】使用Spark对仙女星系数据进行分析

本讲义出自Jose Nandez在Spark Summit East 2017上的演讲,主要介绍了使用Spark与Python API对于仙女星系的数据进行交互式数据分析,Spark-Python代码充分利用了Spark RDDs进行查询来帮助预测某一对像是否属于仙女星系.