【Spark Summit East 2017】Hail:基于Spark的可伸缩基因数据分析平台

本讲义出自Cotton Seed在Spark Summit East 2017上的演讲,主要分享了关于开源项目Hail(https://hail.is)的相关内容,Hail是基于Spark实现的可伸缩的平台,该平台帮助全球的基因遗传学社区去构建、共享以及应用新的工具。

在讲义中介绍了Hail的目标以及体系结构,以及面对如何借助Spark有效地操纵基因数据的挑战所引发的创新点,以及Hail平台的性能和未来的发展方向。

时间: 2024-09-18 08:17:56

【Spark Summit East 2017】Hail:基于Spark的可伸缩基因数据分析平台的相关文章

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图.计算描述性统计的跨平台的Scala数据聚合基元--Histogrammar package,并分享了非结构化数据处理.高效访问的数据存储格式以及大规模图处理等问题.

【Spark Summit East 2017】基于SparkR的可伸缩数据科学

本讲义出自Felix Cheung在Spark Summit East 2017上的演讲,R是一个非常受欢迎的科学数据平台,而Apache Spark是一个高度可扩展的数据平台,SparkR结合了两者的优点,本讲义介绍了关于SparkR的相关内容以及Spark 2.x版本的新特性.

【Spark Summit East 2017】基于Spark构建的Netflix推荐ML Pipeline

本讲义出自Tsai在Spark Summit East 2017上的演讲,主要介绍了Netflix如何使用Apache Spark作为分布式计算框架以及机器学习技术来构建自己的算法来为8000万以上的用户进行个性化推荐,并介绍了在面对Netflix量级的用户带来的挑战中使用的技术和遇到的陷阱.

【Spark Summit East 2017】基于Spark的可扩展的层次聚类算法

本讲义出自Chen Jin在Spark Summit East 2017上的演讲,数据挖掘的第一步工作就是进行聚类,聚类的目标是减少数据冗余或者定义数据类型,层次聚类,是一种被广泛使用的集群技术,它可以通过提出潜在的组织结构从而提供更丰富的表现方式.面对并行算法的挑战性,在讲义中Chen Jin通过将其转化为最小生成树问题设计一个单键分层聚类的并行实现方法.

【Spark Summit East 2017】基于Spark的行为分析研究

本讲义出自John W u在Spark Summit East 2017上的演讲,主要介绍了在Spark生态系统中使用机器学习技术对于一系列应用的用户行为进行分析理解的经验.在这种背景下,Spark使得大型高性能计算系统的强大计算能力可以被可用行为经济学家使用,而不需要像科学家那样去了解并行计算.

【Spark Summit East 2017】Opaque:强安全性的数据分析平台

更多精彩内容参见大数据频道https://yq.aliyun.com/big-data:此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps. 本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,随着企业转向以云计算为基础进行数据分析,云安全漏洞的风险构成了严重的威胁.对数据进行加密是数据传输中的第一步,然而却必须在内存中进行解密,这就有可能暴露在被黑

【Spark Summit East 2017】基于混合云的Spark技术助力数据科学转型

本讲义出自Seth Dobrin在Spark Summit East 2017上的演讲,主要分享了如何基于混合云上的Spark技术以及Kafka帮助数据科学进行变革转型. 大多数企业的业务还是需要在之前的环境中运行,简单粗暴地上云绝对不是大多数公司的选择.迁移上云需要大量的数据和应用,而在使用围绕数据的应用建立数据资产的过程中,很关键的一个部分就是需要用到Spark以及一些开源工具.如果非要等到大型企业都以经准备好上云时,你已经错失了使用混合云的最佳时机,而混合云却能为我们在构建长期的云计算策略

【Spark Summit East 2017】使用Spark RDD构建用户应用

本讲义出自Tejas Patil在Spark Summit East 2017上的演讲,主要介绍了与SQL类的Hive相比,使用Spark RDD API开发用户应用的几个优点,并介绍了如何进行数据分布,避免数据倾斜,如何优化特定于应用程序的优化以及建立可靠的数据管道,为了说明以上的优点,Tejas Patil在演讲中展示了原本基于Hive的经过重新设计基于Spark的大规模复杂语言训练模型管道.

【Spark Summit East 2017】将HPC算法引入大数据平台

本讲义出自Nikolay Malitsky在Spark Summit East 2017上的演讲,主要介绍了使用轻量级源工具集开发的,基于MPI的Spark平台的扩展,扩展的背景和原理正如题目所示:将HPC算法引入大数据平台.

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想.