【Spark Summit East 2017】基于Spark的可扩展的层次聚类算法

本讲义出自Chen Jin在Spark Summit East 2017上的演讲,数据挖掘的第一步工作就是进行聚类,聚类的目标是减少数据冗余或者定义数据类型,层次聚类,是一种被广泛使用的集群技术,它可以通过提出潜在的组织结构从而提供更丰富的表现方式。面对并行算法的挑战性,在讲义中Chen Jin通过将其转化为最小生成树问题设计一个单键分层聚类的并行实现方法。

时间: 2024-09-08 13:35:33

【Spark Summit East 2017】基于Spark的可扩展的层次聚类算法的相关文章

【Spark Summit East 2017】Spark:将数据科学作为服务

本讲义出自Sridhar Alla与Shekhar Agrawal 在Spark Summit East 2017上的演讲,演讲中展示了许多使用逻辑回归.随机森林.决策树.聚类以及NLP等等常用算法的常见用例,并介绍了comcast构建的平台,该平台提供了基于Spark上构建的带有REST API的DSaaS,这意味这对很多用户而言比较抽象的控制和提交等工作,用户可以不再需要考虑写作的严谨性而只需要关注实际需求.

【Spark Summit East 2017】通过Simplicity进行扩展:如何使3亿用户的聊天应用的数据工程量减少70%

本讲义出自Joel Cumming在Spark Summit East 2017上的演讲,主要分享了使得3亿用户的聊天应用的数据工程量减少70%的8件事情,Joel Cumming与他的团队将数据栈从系统和进程的复杂结合体带入到可扩展.简单并且健壮的基于Spark和Databricks平台上,该平台将会使任何一家公司丢可以超级简单地使用数据.

【Spark Summit East 2017】Spark中的草图数据和T-Digest

本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化.优化数据编码.估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示.分位数估计以及数据合成的作用.

【Spark Summit East 2017】Spark SQL:Tungsten之后另一个可以达到16倍速度的利器

本讲义出自Brad Carlile在Spark Summit East 2017上的演讲,主要介绍了Oracle公司的创新产品:Spark SQL,并介绍了使用Spark SQL创新特性以及在Spark ML生成的新特性,并探讨了工作负载在规模和复杂的相互作用,最后还介绍了最佳实践和调优建议.

【Spark Summit East 2017】Spark + Flashblade

本讲义出自Brian Gold在Spark Summit East 2017上的演讲,现代基础设施和应用程序会产生大量的日志和遥测数据,Pure Storage能从工程台.制造伙伴和测试站的运行的存储系统获取超过5PB第一手日志数据,演讲中介绍了Pure Storage公司从扩展数据仓库以及利用Apache Spark的功能满足分析需求的过程中吸取的经验教训.

【Spark Summit East 2017】Spark化数据引擎

本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例.

【Spark Summit East 2017】Spark自动调谐

本讲义出自Lawrence Spracklen 在Spark Summit East 2017上的演讲,主要介绍了Lawrence Spracklen 与团队研发的算法,介绍了如何充分利用被分析的数据的大小,并分享了在分析操作中如何规划流,集群规模,配置和实时利用率以及配置使得Spark的工作性能达到峰值.

【Spark Summit East 2017】Spark上基因组分析的算法和工具

本讲义出自Ryan Williams在Spark Summit East 2017上的演讲,主要介绍了Hammer构建于Spark上的几个基因数据分析工具以及使用RDDs进行一般性计算的库,并分享了其中最有趣的几个应用程序和算法:Guacamole.Pageant以及Magic RDDs.

【Spark Summit East 2017】Spark 2.0机器学习大规模实践经验

本讲义出自Berni Schiefer在Spark Summit East 2017上的演讲,主要介绍了关于Spark 2.0进行大规模机器学习的实际经验,而Berni Schiefer所使用的测试平台不同于典型的Hadoop集群而是为了实现更高的性能而采用了全新的集群设计,使用更多的核心.RAM以及最新的SSD以及100GbE.

【Spark Summit East 2017】Spark与在线分析

本讲义出自Shubham Chopra在Spark Summit East 2017上的演讲,主要介绍了Spark设计初衷是作为批处理分析系统,通过缓存RDD对于迭代处理相同数据的任务进行了加速,这种模式也适用于在线分析,本次演讲中,Shubham Chopra试图定义失效能够导致大规模命中在线查询性能和可能的解决方案的特殊区域.