【Spark Summit East 2017】Spark上基因组分析的算法和工具

本讲义出自Ryan Williams在Spark Summit East 2017上的演讲,主要介绍了Hammer构建于Spark上的几个基因数据分析工具以及使用RDDs进行一般性计算的库,并分享了其中最有趣的几个应用程序和算法:Guacamole、Pageant以及Magic RDDs。

时间: 2024-09-30 03:38:02

【Spark Summit East 2017】Spark上基因组分析的算法和工具的相关文章

【Spark Summit East 2017】使用Spark进行可伸缩的元基因组分析

本讲义出自Zhong Wang在Spark Summit East 2017上的演讲,主要介绍了元基因组分析的相关概念以及目前面临的计算上的挑战,实验表明,使用Spark进行元基因组数据分析的速度.可扩展性.健壮性都非常不错,并且最重要的一点十分容易编程实现,对于元基因组分析来说,Spark是一个具成本效益比较高的解决方案并且能够快速开发和部署的方案.

【Spark Summit East 2017】商品集群上的时间演化图处理

本讲义出自Anand Iyer在Spark Summit East 2017上的演讲,主要介绍了构建于通用数据流框架上的时间演化图处理系统Tegra,并介绍了间隔拍摄(Timelapse)来呈现两个计算模型:用于对于进化图的多个快照进行计算的时序分析模型,以及能够有效更新结果的广义增量计算模型.

【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究

本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作.除此之外还介绍了名为PAT的内部数据分析框架,并介绍了如何使用PAT快速建立Spark与虚拟机合适的配置组合来优化对于云的硬件资源以及Spark计算并行性的使用.

【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库

本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了"高性能计算"和"大数据"的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储.数据处理和挖掘.机器学习以及深度学习等.

【Spark Summit East 2017】构建于高维文档数据集上的基于时间戳的实时分析查询处理与预测模型

本讲义出自Debasish Das在Spark Summit East 2017上的演讲,主要介绍了对于LuceneDAO进行的扩展,允许其从文档术语的观点来使用时间戳进行搜索和时间过滤,演讲中展示了对于一整套查询生成的API,核心观点是通过理解如何使得 Lucene能够意识到在Spark中时间意识是非常重要的,进而构建交互式分析查询处理和时间序列预测算法.

【Spark Summit East 2017】混合云上的Spark:为何安全和治理变得愈发重要?

本讲义出自Arun Murthy在Spark Summit East 2017上的演讲,主要分享了在混合云上的Spark技术飞速发展的今天,为什么安全和治理变得越来越重要. 如今很多应用一方面连接着企业自建的数据中心,另一方面连接着云平台,如此形成了混合云的架构体系,实现了公有云与私有数据中心的数据互联互通.而对于混合云上的Spark技术而言,安全和治理变得愈发重要,在Arun Murthy的分享中就以几个实际的案例进行了说明和阐述.

【Spark Summit East 2017】使用ADAM处理Terabyte级基因数据集

本讲义出自Frank Austin Nothaft在Spark Summit East 2017上的演讲,主要介绍了构建于Spark分布式计算框架之上的符合Apache 2许可的库ADAM,ADAM允许基因分析在Spark上集群上无缝地进行分布,并为编写基因组分析算法提供了清晰的API,演讲还讨论了ADAM与Hbase对于大型变体数据集进行交互式探索.

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想.

【Spark Summit East 2017】Apache Toree:Spark的一种Jupyter内核

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,主要介绍了Toree的设计思想,Toree如何与Jupyter生态系统交互,以及用户如何借助强大的插件系统来扩展Apache Toree的功能. 目前许多数据科学家已经在利用Jupyter生态系统并进行数据分析,正在孵化中的Apache Toree是设计用于作为Spark网关,Apache Toree能让用户遵守Jupyter标准,这将允许用户非常简单地将Spark集成到已有的Jupyter生态