【Spark Summit East 2017】深度探究Spark + Parquet

本讲义出自Emily Curtin and Robbie Strickland在Spark Summit East 2017上的演讲,主要介绍了使用Spark + Parquet构建的非常之快、存储高效、查询也高效的数据湖以及与之相匹配的一系列工具。演讲分享了Parquet是如何工作的以及如何从Tungsten得改进并使得SparkSQL可以利用这样的设计克服分布式分析中的两大瓶颈:通信成本和数据解码,并提供快速查询的。

时间: 2024-10-07 05:23:15

【Spark Summit East 2017】深度探究Spark + Parquet的相关文章

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想.

【Spark Summit East 2017】使用Spark和Riak构建物联网应用——模式和反模式

本讲义出自Pavel Hardak在Spark Summit East 2017上的演讲,讨论了存储物联网数据的关系型数据库.NoSQL以及对象存储产品的优点和缺点,并将分享使用Spark结合Riak NoSQL数据库的最佳实践,并解释了为何使用Riak获取可伸缩的持久性后的Spark模型能够解决物联网应用的共性问题,最后还结识了为何Structured Spark Streaming给了对于时间序列分析良机.

【Spark Summit East 2017】使用Spark对仙女星系数据进行分析

本讲义出自Jose Nandez在Spark Summit East 2017上的演讲,主要介绍了使用Spark与Python API对于仙女星系的数据进行交互式数据分析,Spark-Python代码充分利用了Spark RDDs进行查询来帮助预测某一对像是否属于仙女星系.

【Spark Summit East 2017】使用Spark和Elasticsearch构建数据集搜索引擎

本讲义出自Oscar Castaneda Villagran在Spark Summit East 2017上的演讲,主要介绍了利用内置了Elasticsearch的Spark集群使得在集群中的驱动节点上运行嵌入式Elasticsearch实例成为了可能,这就为开发更为先进的应用程序奠定了基础,其中一个应用就是数据集搜索.

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图.计算描述性统计的跨平台的Scala数据聚合基元--Histogrammar package,并分享了非结构化数据处理.高效访问的数据存储格式以及大规模图处理等问题.

【Spark Summit East 2017】使用Spark与Kafka构建Second Look业务用例实时平台

本讲义出自Ivy Lu在Spark Summit East 2017上的演讲,主要介绍了如何使用Spark与Kafka创建一个重新审视用例的实时平台Second Look,Second Look是由Capital One构建的用于检测并通知持卡人一些潜在的错误和意想不到的费用的实时业务平台.本讲义分享了Second Look设计思路以及相关技术细节.

【Spark Summit East 2017】使用Spark MLlib和Apache Solr构建实时实体类型识别系统

本讲义出自Khalifeh Aljadda在Spark Summit East 2017上的演讲,由于实体查询系统中的查询一般比较短,所以由于缺少上下文信息,所以不适合使用传统的bag-of-words模型来确定实体类型,本讲义介绍了一个新颖的实体类型识别系统,该系统使用Spark MLlib和Apache Solr构建,能够结合不同来源的线索来分析出需要查询实体.

【Spark Summit East 2017】基于Spark构建的Netflix推荐ML Pipeline

本讲义出自Tsai在Spark Summit East 2017上的演讲,主要介绍了Netflix如何使用Apache Spark作为分布式计算框架以及机器学习技术来构建自己的算法来为8000万以上的用户进行个性化推荐,并介绍了在面对Netflix量级的用户带来的挑战中使用的技术和遇到的陷阱.

【Spark Summit East 2017】Kerberizing Spark

本讲义出自Abel Rincon与Jorge Lopez-Malla在Spark Summit East 2017上的演讲,主要介绍了Spark作为主流的大规模并行处理框架,HDFS作为最受欢迎的大数据存储技术,两者之间的结合通常是大数据的常见用例,本讲义分享了如何使得两种技术同处于安全的环境中,另外随着BI技术适应大数据环境,要求几个用户能够同时与集群进行交互,如何保证环境的安全也是一个挑战.

【Spark Summit East 2017】使用Spark进行时间序列分析

本讲义出自Simon Ouellette在Spark Summit East 2017上的演讲,主要介绍了在Spark上与时间序列数据进行交互的Scala / Java / Python库--spark-timeseries,演讲中分享了spark-timeseries的总体设计,目前实现的功能,并将提供一些用法示例.因为项目还处于早期阶段,演讲也介绍了spark-timeseries当前的缺点和未来spark-timeseries项目的发展路线图.