本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作。除此之外还介绍了名为PAT的内部数据分析框架,并介绍了如何使用PAT快速建立Spark与虚拟机合适的配置组合来优化对于云的硬件资源以及Spark计算并行性的使用。
时间: 2024-10-22 03:07:40