【Spark Summit East 2017】现代化你的数据仓库的全新“Sparkitecture”

本讲义出自Myles Collins在Spark Summit East 2017上的演讲,主要介绍了面对数据管道增速,聚合和可视化成为一个简化的,自助的方式的挑战,很多组织开始越来越多地转向求助于Spark, Hadoop, Kafka的结合,并且证明了分析型数据库Vertica等关键实现技术是优化企业级数据仓库体系结构的关键。

时间: 2024-10-12 08:24:51

【Spark Summit East 2017】现代化你的数据仓库的全新“Sparkitecture”的相关文章

【Spark Summit East 2017】虚拟化分析,Spark是最好的答案么?

本讲义出自Arsalan Tavakoli在Spark Summit East 2017上的演讲,主要对于虚拟化分析的技术路线的发展进行了探讨. 对于企业而言,往往希望数据积累的越多,获取的智能也就越多.但是怎样才能做到这一点呢?其实需要依靠三大支撑:数据.分析以及人.面对参差不齐并且传播速度非常快的大量数据,多种多样,越来越复杂的分析手段以及需要涉及更多的人.更多的职责以及人与人之间工作交接的低效的挑战,今天的技术栈足以应对了么? 从最初的数据仓库.到第二代的Hadoop+Data Lake,

【Spark Summit East 2017】Spark + Flashblade

本讲义出自Brian Gold在Spark Summit East 2017上的演讲,现代基础设施和应用程序会产生大量的日志和遥测数据,Pure Storage能从工程台.制造伙伴和测试站的运行的存储系统获取超过5PB第一手日志数据,演讲中介绍了Pure Storage公司从扩展数据仓库以及利用Apache Spark的功能满足分析需求的过程中吸取的经验教训.

【Spark Summit East 2017】Spark化数据引擎

本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例.

【Spark Summit East 2017】下一代存档:使用Hadoop进行存档、电子取证和监管

本讲义出自Jordan Volzn在Spark Summit East 2017上的演讲,存档.电子取证和监管这样几个合规的案例,这些看上去天生就适合使用Hadoop进行处理,但是却没有被广泛采用,演讲中讨论了几者之间共同的局限,以及Spark如何帮助构建新的蓝图并打破原有的解决方案将架构现代化.

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想.

【Spark Summit East 2017】Apache Toree:Spark的一种Jupyter内核

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,主要介绍了Toree的设计思想,Toree如何与Jupyter生态系统交互,以及用户如何借助强大的插件系统来扩展Apache Toree的功能. 目前许多数据科学家已经在利用Jupyter生态系统并进行数据分析,正在孵化中的Apache Toree是设计用于作为Spark网关,Apache Toree能让用户遵守Jupyter标准,这将允许用户非常简单地将Spark集成到已有的Jupyter生态

【Spark Summit East 2017】使用Alluxio提升Spark效率

本讲义出自Gene Pang与Haoyuan  Li在Spark Summit East 2017上的演讲,主要介绍了Alluxio,前身为Tachyon,是内存加速虚拟分布式存储系统,该系统可以利用内存存储数据,并且加速访问从不同的数据存储系统的数据.Alluxio拥有迅速成长的开源社区,并且已经被部署在阿里巴巴.百度以及Intel等,Alluxio可以提高Spark的效率,并为Spark与各中存储系统之间搭建桥梁,进一步对于数据密集型应用程序进行加速.

【Spark Summit East 2017】使用Spark和Riak构建物联网应用——模式和反模式

本讲义出自Pavel Hardak在Spark Summit East 2017上的演讲,讨论了存储物联网数据的关系型数据库.NoSQL以及对象存储产品的优点和缺点,并将分享使用Spark结合Riak NoSQL数据库的最佳实践,并解释了为何使用Riak获取可伸缩的持久性后的Spark模型能够解决物联网应用的共性问题,最后还结识了为何Structured Spark Streaming给了对于时间序列分析良机.

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.