【Spark Summit East 2017】物联网容量规划的预测分析

本讲义出自Constant Wette在Spark Summit East 2017上的演讲,物联网(IoT)是一个日益增长的网络,与传统人类的沟通方式不同,物联网支持各种网络类型并且能够满足各种网络需求,这也导致出现了物联网的网络标准,为了优化对于物联网基础设施投资,需要使用动态方法调查网络容量规划情况,以适应特定的需求,本讲义介绍了基于Hadoop和Spark构建的综合分析框架以及一些用于验证准确性的案例。

时间: 2024-09-19 21:56:16

【Spark Summit East 2017】物联网容量规划的预测分析的相关文章

【Spark Summit East 2017】使用Spark和Riak构建物联网应用——模式和反模式

本讲义出自Pavel Hardak在Spark Summit East 2017上的演讲,讨论了存储物联网数据的关系型数据库.NoSQL以及对象存储产品的优点和缺点,并将分享使用Spark结合Riak NoSQL数据库的最佳实践,并解释了为何使用Riak获取可伸缩的持久性后的Spark模型能够解决物联网应用的共性问题,最后还结识了为何Structured Spark Streaming给了对于时间序列分析良机.

【Spark Summit East 2017】物联网与自动驾驶汽车:使用Kafka与Spark Streaming进行同步定位和映射

本讲义出自Jay White Bear在Spark Summit East 2017上的演讲,主要介绍了在机器人和自主车辆领域公认的具有工业和研究价值的问题--同步定位和映射(SLAM)问题,演讲中分享了依靠Kafka和Spark Streaming构成的新集成框架,并使用在线算法实时地进行导航并且绘制空间地图来解决SLAM问题,并分享了在实现中面临的挑战以及为改善性能提出的优化建议.

【Spark Summit East 2017】pySpark时间序列分析新方向

本讲义出自David Palaitis在Spark Summit East 2017上的演讲,主要介绍了无论是物联网(loT),财务数据分析,还是时间序列分析都需要合适工具和技术,目前很明显缺少Pandas和pySpark栈的相关软件.在的分享中讲述了Two Sigma对于时间序列分析的贡献,使用Pandas完成的工作以及Spark中面向未来的pySpark和Python发展的路线图.

【Spark Summit East 2017】Spark自动调谐

本讲义出自Lawrence Spracklen 在Spark Summit East 2017上的演讲,主要介绍了Lawrence Spracklen 与团队研发的算法,介绍了如何充分利用被分析的数据的大小,并分享了在分析操作中如何规划流,集群规模,配置和实时利用率以及配置使得Spark的工作性能达到峰值.

【Spark Summit East 2017】Drizzle——Spark的低延迟执行

本讲义出自Shivaram Venkataraman在Spark Summit East 2017上的演讲,主要介绍了Spark的低延迟执行引擎--Drizzle,其设计目的在于对流进行处理以及进行迭代工作.目前Spark使用BSP计算模型,并每个任务结束时通知调度器,这就增加了额外的开销,导致导致吞吐量降低,延迟增加,而Drizzle引入了组调度,也就是一次可以对于一组的计算进行规划.

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想.

【Spark Summit East 2017】Apache Toree:Spark的一种Jupyter内核

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,主要介绍了Toree的设计思想,Toree如何与Jupyter生态系统交互,以及用户如何借助强大的插件系统来扩展Apache Toree的功能. 目前许多数据科学家已经在利用Jupyter生态系统并进行数据分析,正在孵化中的Apache Toree是设计用于作为Spark网关,Apache Toree能让用户遵守Jupyter标准,这将允许用户非常简单地将Spark集成到已有的Jupyter生态

【Spark Summit East 2017】使用Alluxio提升Spark效率

本讲义出自Gene Pang与Haoyuan  Li在Spark Summit East 2017上的演讲,主要介绍了Alluxio,前身为Tachyon,是内存加速虚拟分布式存储系统,该系统可以利用内存存储数据,并且加速访问从不同的数据存储系统的数据.Alluxio拥有迅速成长的开源社区,并且已经被部署在阿里巴巴.百度以及Intel等,Alluxio可以提高Spark的效率,并为Spark与各中存储系统之间搭建桥梁,进一步对于数据密集型应用程序进行加速.

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.