【Spark Summit East 2017】Spark,类型函数式编程的引诱者

本讲义出自Jeff Smith与Rohan Aletty在Spark Summit East 2017上的演讲,主要介绍了如何使用Spark作为学习工具,在函数式编程等领域构建技能栈,介绍了从基础工作Scala和函数式编程的概念到完全实现机器学习管道,并讲解了Spark以及MLlib。

时间: 2024-09-30 16:54:22

【Spark Summit East 2017】Spark,类型函数式编程的引诱者的相关文章

【Spark Summit East 2017】使用Spark MLlib和Apache Solr构建实时实体类型识别系统

本讲义出自Khalifeh Aljadda在Spark Summit East 2017上的演讲,由于实体查询系统中的查询一般比较短,所以由于缺少上下文信息,所以不适合使用传统的bag-of-words模型来确定实体类型,本讲义介绍了一个新颖的实体类型识别系统,该系统使用Spark MLlib和Apache Solr构建,能够结合不同来源的线索来分析出需要查询实体.

【Spark Summit East 2017】不再有“Sbt Assembly”了:使用CueSheet反思Spark Summit

本讲义出自Jong Wook Kim在Spark Summit East 2017上的演讲,主要介绍了CueSheet,一个围绕着Spark构建的开源框架,能够对于Spark应用程序的开发进行加速. 在Spark应用的开发中至关重要,但是并不是很有趣的一部分就是对应用进行打包,尽管有很多像Zeppelin 以及Databricks这样的笔记本式的交互环境,但是对于存在很多严重依赖的正式项目而言,经常存在将Spark项目作为单独的Scala版控制树进行管理.为了应对这些,官方文档告诉我们使用SBT

【Spark Summit East 2017】提升Python与Spark的性能和互操作性

本讲义出自Wes McKinney在Spark Summit East 2017上的演讲,对于使用Python编程以及并行化和扩大数据处理方面,Spark已成为一个受欢迎和成功的框架,但是在很多案例中,使用PySpark的任务处理要比使用Scala编写的效率差,而且在Python环境与Spark主机之间推拉数据也将增加开销,本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题.

【Spark Summit East 2017】工程快速索引

本讲义出自Daniel Lemire在Spark Summit East 2017上的演讲,主要介绍了当代计算机硬件提供了大量新的性能的机会.然而高性能编程仍是一项艰巨的挑战,演讲中给出了一些对于设计侧重于压缩位图索引的更快索引的经验教训.压缩位图索引加速查询在流行系统,如Spark, Git, Elastic, Druid与Apache Kylin中的应用.

【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究

本讲义出自Lucy Lu与Eric Kaczmarek在Spark Summit East 2017上的演讲,主要介绍了正在研发中的基于Spark的编程平台GATK4(Genome Analysis Toolkit version 4 ),并用案例讲解了如何在云上配置Spark集群加速对于基因序列的测序工作.除此之外还介绍了名为PAT的内部数据分析框架,并介绍了如何使用PAT快速建立Spark与虚拟机合适的配置组合来优化对于云的硬件资源以及Spark计算并行性的使用.

【Spark Summit East 2017】物联网容量规划的预测分析

本讲义出自Constant Wette在Spark Summit East 2017上的演讲,物联网(IoT)是一个日益增长的网络,与传统人类的沟通方式不同,物联网支持各种网络类型并且能够满足各种网络需求,这也导致出现了物联网的网络标准,为了优化对于物联网基础设施投资,需要使用动态方法调查网络容量规划情况,以适应特定的需求,本讲义介绍了基于Hadoop和Spark构建的综合分析框架以及一些用于验证准确性的案例.

【Spark Summit East 2017】可扩展性机器学习的特征哈希

本讲义出自Nick Pentreath在Spark Summit East 2017上的演讲,主要介绍了特征哈希是用于处理高维特性的一个功能强大的机器学习技术,特征哈希快速.简单.并且节约内存,而且适合在线学习场景,演讲中分享了特征哈希的基本功能,以及如何使用特征哈希在机器学习中的所有功能类型,并介绍了一个在Spark ML管道中使用的更加灵活和强大的转化器.

【Spark Summit East 2017】大数据应用的工程快速索引(深度挖掘)

本讲义出自Daniel Lemire在Spark Summit East 2017上的演讲,主要介绍了对了应对高性能编程的挑战,分享了Daniel Lemire及团队在侧重于压缩位图索引设计快速索引时吸取的经验教训.

【Spark Summit East 2017】使用Spark进行可伸缩的元基因组分析

本讲义出自Zhong Wang在Spark Summit East 2017上的演讲,主要介绍了元基因组分析的相关概念以及目前面临的计算上的挑战,实验表明,使用Spark进行元基因组数据分析的速度.可扩展性.健壮性都非常不错,并且最重要的一点十分容易编程实现,对于元基因组分析来说,Spark是一个具成本效益比较高的解决方案并且能够快速开发和部署的方案.