【Spark Summit East 2017】物联网与自动驾驶汽车:使用Kafka与Spark Streaming进行同步定位和映射

本讲义出自Jay White Bear在Spark Summit East 2017上的演讲,主要介绍了在机器人和自主车辆领域公认的具有工业和研究价值的问题——同步定位和映射(SLAM)问题,演讲中分享了依靠Kafka和Spark Streaming构成的新集成框架,并使用在线算法实时地进行导航并且绘制空间地图来解决SLAM问题,并分享了在实现中面临的挑战以及为改善性能提出的优化建议。

时间: 2024-07-29 09:54:56

【Spark Summit East 2017】物联网与自动驾驶汽车:使用Kafka与Spark Streaming进行同步定位和映射的相关文章

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想.

【Spark Summit East 2017】使用Spark对仙女星系数据进行分析

本讲义出自Jose Nandez在Spark Summit East 2017上的演讲,主要介绍了使用Spark与Python API对于仙女星系的数据进行交互式数据分析,Spark-Python代码充分利用了Spark RDDs进行查询来帮助预测某一对像是否属于仙女星系.

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图.计算描述性统计的跨平台的Scala数据聚合基元--Histogrammar package,并分享了非结构化数据处理.高效访问的数据存储格式以及大规模图处理等问题.

【Spark Summit East 2017】使用“宽”随机森林在基因组的大草堆中寻针

本讲义出自Piotr Szul在Spark Summit East 2017上的演讲,主要介绍了基于Spark的实现了对于高维度的数据集进行优化的RandomForestHD,目前已经成功地将RandomForestHD运用到其他工具无法处理的数据集上,并且发现数据集越小其性能表现就会越好,演讲中还介绍了 WGAS相关方面的挑战,表现了RandomForestHD基于Spark的设计原则和实现细节.

【Spark Summit East 2017】使用Spark进行时间序列分析

本讲义出自Simon Ouellette在Spark Summit East 2017上的演讲,主要介绍了在Spark上与时间序列数据进行交互的Scala / Java / Python库--spark-timeseries,演讲中分享了spark-timeseries的总体设计,目前实现的功能,并将提供一些用法示例.因为项目还处于早期阶段,演讲也介绍了spark-timeseries当前的缺点和未来spark-timeseries项目的发展路线图.

【Spark Summit East 2017】Spark 2.0机器学习大规模实践经验

本讲义出自Berni Schiefer在Spark Summit East 2017上的演讲,主要介绍了关于Spark 2.0进行大规模机器学习的实际经验,而Berni Schiefer所使用的测试平台不同于典型的Hadoop集群而是为了实现更高的性能而采用了全新的集群设计,使用更多的核心.RAM以及最新的SSD以及100GbE.

【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库

本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了"高性能计算"和"大数据"的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储.数据处理和挖掘.机器学习以及深度学习等.

【Spark Summit East 2017】深度探究Spark + Parquet

本讲义出自Emily Curtin and Robbie Strickland在Spark Summit East 2017上的演讲,主要介绍了使用Spark + Parquet构建的非常之快.存储高效.查询也高效的数据湖以及与之相匹配的一系列工具.演讲分享了Parquet是如何工作的以及如何从Tungsten得改进并使得SparkSQL可以利用这样的设计克服分布式分析中的两大瓶颈:通信成本和数据解码,并提供快速查询的.

【Spark Summit East 2017】从容器化Spark负载中获取的经验

本讲义出自Tom Phelan在Spark Summit East 2017上的演讲,主要介绍了在Spark集群上部署分布式大数据应用程序面对的容器生命周期管理.智能调度优化资源利用率.网络配置和安全以以及性能等诸多挑战,Tom Phelan探讨了如何实现高可用性的分布式大数据应用和数据中心主机,并分享了学到的经验教训,并对于如何在一个可靠的.可伸缩的.高性能的环境将大数据应用程序容器化给出了一些提示.

【Spark Summit East 2017】基于Spark的行为分析研究

本讲义出自John W u在Spark Summit East 2017上的演讲,主要介绍了在Spark生态系统中使用机器学习技术对于一系列应用的用户行为进行分析理解的经验.在这种背景下,Spark使得大型高性能计算系统的强大计算能力可以被可用行为经济学家使用,而不需要像科学家那样去了解并行计算.