【Spark Summit East 2017】为什么没有人会告诉你如何写一个流应用

本讲义出自Mark Grover与Ted Malaska在Spark Summit East 2017上的演讲,如果你想开发一个非凡的流应用就不得不考虑以下的问题:

  • 怎么管理补偿?
  • 怎么管理状态?
  • 如何让Spark Streaming工作能够从失败中恢复?能够避免一些失败吗?
  • 如何优雅地关闭流的工作?
  • 如何监控和管理流的工作吗?
  • 怎样才能更好地在流中管理DAG?
  • 什么时候使用检查点,什么时候不用?
  • 为什么在流数据源时需要WAL?

时间: 2024-09-08 23:09:39

【Spark Summit East 2017】为什么没有人会告诉你如何写一个流应用的相关文章

【Spark Summit East 2017】分布式实时流处理:Why and How

本讲义出自Petr Zapletal在Spark Summit East 2017上的演讲,最近一段时期,流处理的需求增加了很多,需要将不同来源快速增长的大量数据进行处理限制了很多的传统的数据处理基础设施,而很多的开源软件平台开始出现解决这个问题,然而相同的问题会有不同的解决方案,本讲义就探讨了如何对于分布式实时流进行处理.

【Spark Summit East 2017】FIS:加速FinTech数字智能

本讲义出自Aaron Colcord在Spark Summit East 2017上的演讲,在2017年,60%的美国人都将成为电子银行用户,面对随着银行经验越来越丰富,忠实用户也越来越多的挑战,所以不得不充分利用手中的数据构建可靠的.可行的数据分析来提高用户体验,面对数据量和数据速度,企业业务的复杂性以及过时的技术所带来的巨大挑战,FIS使用Spark和Databricks为千上万的金融机构提供了与客户建立更好的关系的能力.

【Spark Summit East 2017】虚拟化分析,Spark是最好的答案么?

本讲义出自Arsalan Tavakoli在Spark Summit East 2017上的演讲,主要对于虚拟化分析的技术路线的发展进行了探讨. 对于企业而言,往往希望数据积累的越多,获取的智能也就越多.但是怎样才能做到这一点呢?其实需要依靠三大支撑:数据.分析以及人.面对参差不齐并且传播速度非常快的大量数据,多种多样,越来越复杂的分析手段以及需要涉及更多的人.更多的职责以及人与人之间工作交接的低效的挑战,今天的技术栈足以应对了么? 从最初的数据仓库.到第二代的Hadoop+Data Lake,

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想.

【Spark Summit East 2017】Apache Toree:Spark的一种Jupyter内核

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,主要介绍了Toree的设计思想,Toree如何与Jupyter生态系统交互,以及用户如何借助强大的插件系统来扩展Apache Toree的功能. 目前许多数据科学家已经在利用Jupyter生态系统并进行数据分析,正在孵化中的Apache Toree是设计用于作为Spark网关,Apache Toree能让用户遵守Jupyter标准,这将允许用户非常简单地将Spark集成到已有的Jupyter生态

【Spark Summit East 2017】使用Alluxio提升Spark效率

本讲义出自Gene Pang与Haoyuan  Li在Spark Summit East 2017上的演讲,主要介绍了Alluxio,前身为Tachyon,是内存加速虚拟分布式存储系统,该系统可以利用内存存储数据,并且加速访问从不同的数据存储系统的数据.Alluxio拥有迅速成长的开源社区,并且已经被部署在阿里巴巴.百度以及Intel等,Alluxio可以提高Spark的效率,并为Spark与各中存储系统之间搭建桥梁,进一步对于数据密集型应用程序进行加速.

【Spark Summit East 2017】使用Spark和Riak构建物联网应用——模式和反模式

本讲义出自Pavel Hardak在Spark Summit East 2017上的演讲,讨论了存储物联网数据的关系型数据库.NoSQL以及对象存储产品的优点和缺点,并将分享使用Spark结合Riak NoSQL数据库的最佳实践,并解释了为何使用Riak获取可伸缩的持久性后的Spark模型能够解决物联网应用的共性问题,最后还结识了为何Structured Spark Streaming给了对于时间序列分析良机.

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.

【Spark Summit East 2017】在AdTech使用Spark对于产品管道进行研发

本讲义出自Maximo Gurmendez , Saket Mengle与Sunanda Parthasarathy 在Spark Summit East 2017上的演讲,主要介绍了DataXu,其核心能力是应用数据分析来获取更好的市场,其核心是每天处理2 Petabytes数据并且每秒响应来自五大洲的210万个请求的广告拍卖的实时竞价平台,演讲中将分享使用Apache Spark 框架和Databricks的DataXu成功用例,演讲将分享整个从研发到ETL处理以及建模等工作的整个过程.