【Spark Summit East 2017】Spark中的草图数据和T-Digest

本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。

时间: 2024-12-01 17:26:11

【Spark Summit East 2017】Spark中的草图数据和T-Digest的相关文章

【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎

本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战.

【Spark Summit East 2017】Stitch Fix从Redshift迁移到Spark的实践

本讲义出自Sky Yin在Spark Summit East 2017上的演讲,数据科学家每天都会编写SQL查询语句,通常情况下,他们知道如何编写正确的查询语句,但不知道为什么他们的查询执行却是缓慢的,所以需要对于SQL查询进行优化,本讲义将介绍如何将一个大表从Redshift迁移到Spark上.

【Spark Summit East 2017】从巨型图中学习的神经网络

本讲义出自Daniel Darabos与Hanna Gabor 在Spark Summit East 2017上的演讲,为了应对在构建神经网络的训练过程中对于图形顶点的考虑问题的挑战,Daniel Darabos与Hanna Gabor和团队使用同一张图执行预测和训练的过程并且给出了一些训练的技巧,而为了应对图过大而无法在单个机器的内存内进行真正的资源密集型计算的问题,使用对于图的分布式存储和计算策略,同时还展示了来解决上述问题核心算法以及一些实验结果.

【Spark Summit East 2017】使用“宽”随机森林在基因组的大草堆中寻针

本讲义出自Piotr Szul在Spark Summit East 2017上的演讲,主要介绍了基于Spark的实现了对于高维度的数据集进行优化的RandomForestHD,目前已经成功地将RandomForestHD运用到其他工具无法处理的数据集上,并且发现数据集越小其性能表现就会越好,演讲中还介绍了 WGAS相关方面的挑战,表现了RandomForestHD基于Spark的设计原则和实现细节.

【Spark Summit East 2017】管道泄漏问题:像女士一样在大数据中做个的标记

本讲义出自Kavitha Mariappan在Spark Summit East 2017上的演讲,主要介绍了如何应对大数据中的管道泄漏问题.

【Spark Summit East 2017】从容器化Spark负载中获取的经验

本讲义出自Tom Phelan在Spark Summit East 2017上的演讲,主要介绍了在Spark集群上部署分布式大数据应用程序面对的容器生命周期管理.智能调度优化资源利用率.网络配置和安全以以及性能等诸多挑战,Tom Phelan探讨了如何实现高可用性的分布式大数据应用和数据中心主机,并分享了学到的经验教训,并对于如何在一个可靠的.可伸缩的.高性能的环境将大数据应用程序容器化给出了一些提示.

【Spark Summit East 2017】Apache Toree:Spark的一种Jupyter内核

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,主要介绍了Toree的设计思想,Toree如何与Jupyter生态系统交互,以及用户如何借助强大的插件系统来扩展Apache Toree的功能. 目前许多数据科学家已经在利用Jupyter生态系统并进行数据分析,正在孵化中的Apache Toree是设计用于作为Spark网关,Apache Toree能让用户遵守Jupyter标准,这将允许用户非常简单地将Spark集成到已有的Jupyter生态

【Spark Summit East 2017】使用Alluxio提升Spark效率

本讲义出自Gene Pang与Haoyuan  Li在Spark Summit East 2017上的演讲,主要介绍了Alluxio,前身为Tachyon,是内存加速虚拟分布式存储系统,该系统可以利用内存存储数据,并且加速访问从不同的数据存储系统的数据.Alluxio拥有迅速成长的开源社区,并且已经被部署在阿里巴巴.百度以及Intel等,Alluxio可以提高Spark的效率,并为Spark与各中存储系统之间搭建桥梁,进一步对于数据密集型应用程序进行加速.

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.