【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究

本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。除此之外还介绍了名为PAT的内部数据分析框架,并介绍了如何使用PAT快速建立Spark与虚拟机合适的配置组合来优化对于云的硬件资源以及Spark计算并行性的使用。

时间: 2024-10-22 03:07:40

【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究的相关文章

【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库

本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了"高性能计算"和"大数据"的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储.数据处理和挖掘.机器学习以及深度学习等.

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.

【Spark Summit East 2017】将Apache Spark MLlib扩展至十亿级别的参数

本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了通过自由向量L-BFGS进行逻辑回归来满足真实世界的数据集和需求,并分享了如何将这种方法用于其他的机器学习算法.

【Spark Summit East 2017】R与Spark:如何使用RStudio的 Sparklyr和H2O的 Rsparkling分析数据

本讲义出自Nathan Stephens在Spark Summit East 2017上的演讲,Sparklyr是一个让你在Spark中进行数据分析就像在R开发环境下进行数据分析的R语言包,Sparklyr 支持处理数据帧对象的常用工具dplyr的完整后端,你可以使用dplyr将R代码翻译成Spark SQL,Sparklyr还支持MLlib,所以你可以在分布式数据集上运行分类器以及回归.聚类.决策树等机器学习算法,讲义中演示了如何使用Sparklyr和Rsparkling分析数据.

【Spark Summit East 2017】Cornami提升Spark性能与速度

本讲义出自Paul Master在Spark Summit East 2017上的演讲,主要介绍了CORNAMI公司的TruStream技术,一个以高密度处理器核心计算内存结构的新架构.演讲中介绍了如何将Spark集成到TruStream计算结构中来对于一般的Spark任务提供更高性能的计算处理能力,并介绍了目前在多服务器集群上构建的应用上如何使用TruStream与Spark提高算法速度,增加功能并且降低成本以及延迟.

【Spark Summit East 2017】Intel与Spark共同助推机器学习与深度学习

本讲义出自Ziya Ma在Spark Summit East 2017上的演讲,主要介绍了人工智能对于目前各个行业的深刻变革并将继续释放大量的能量,并且讲述了人工智能目前需要更进一步提升的需求点,并且介绍了应对人工智能的需求,Intel所研发的BigDL大数据分析框架. BigDL特性与CAFEE以及TORCH相似,对于用户和开发者而言,BigDL非常易于使用,并且所需成本比较低,而且能够使得深度学习在大数据平台上易于扩展,而且能够在单点上具有较高的性能.

【Spark Summit East 2017】使用基于Spark的超级计算机压缩软件开发周期

本讲义出自Anthony DiBiase在Spark Summit East 2017上的演讲,主要分享了如何为了大规模地部署服务压缩软件开发周期,并分享了应对自动化决策和模型的复杂性和基于Spark 的机器学习解决方案,演讲中还对于Cray超级计算机进行了介绍.

【Spark Summit East 2017】深度探究Spark + Parquet

本讲义出自Emily Curtin and Robbie Strickland在Spark Summit East 2017上的演讲,主要介绍了使用Spark + Parquet构建的非常之快.存储高效.查询也高效的数据湖以及与之相匹配的一系列工具.演讲分享了Parquet是如何工作的以及如何从Tungsten得改进并使得SparkSQL可以利用这样的设计克服分布式分析中的两大瓶颈:通信成本和数据解码,并提供快速查询的.

【Spark Summit East 2017】从解决Spark陷阱中学到的问题解决清单

本讲义出自Justin Pihony与Stavros Kontopoulos在Spark Summit East 2017上的演讲,因为Spark,大数据应用程序的编写并不简单,讲义中分享了Lightbend帮助客户在Spark中发现很多的隐藏陷阱,介绍了应该如何洞察这些陷阱和如何避免出现相同的错误.