【Spark Summit East 2017】下一代存档:使用Hadoop进行存档、电子取证和监管

本讲义出自Jordan Volzn在Spark Summit East 2017上的演讲,存档、电子取证和监管这样几个合规的案例,这些看上去天生就适合使用Hadoop进行处理,但是却没有被广泛采用,演讲中讨论了几者之间共同的局限,以及Spark如何帮助构建新的蓝图并打破原有的解决方案将架构现代化。

时间: 2024-10-11 13:24:35

【Spark Summit East 2017】下一代存档:使用Hadoop进行存档、电子取证和监管的相关文章

【Spark Summit East 2017】虚拟化分析,Spark是最好的答案么?

本讲义出自Arsalan Tavakoli在Spark Summit East 2017上的演讲,主要对于虚拟化分析的技术路线的发展进行了探讨. 对于企业而言,往往希望数据积累的越多,获取的智能也就越多.但是怎样才能做到这一点呢?其实需要依靠三大支撑:数据.分析以及人.面对参差不齐并且传播速度非常快的大量数据,多种多样,越来越复杂的分析手段以及需要涉及更多的人.更多的职责以及人与人之间工作交接的低效的挑战,今天的技术栈足以应对了么? 从最初的数据仓库.到第二代的Hadoop+Data Lake,

【Spark Summit East 2017】物联网容量规划的预测分析

本讲义出自Constant Wette在Spark Summit East 2017上的演讲,物联网(IoT)是一个日益增长的网络,与传统人类的沟通方式不同,物联网支持各种网络类型并且能够满足各种网络需求,这也导致出现了物联网的网络标准,为了优化对于物联网基础设施投资,需要使用动态方法调查网络容量规划情况,以适应特定的需求,本讲义介绍了基于Hadoop和Spark构建的综合分析框架以及一些用于验证准确性的案例.

【Spark Summit East 2017】Spark 2.0机器学习大规模实践经验

本讲义出自Berni Schiefer在Spark Summit East 2017上的演讲,主要介绍了关于Spark 2.0进行大规模机器学习的实际经验,而Berni Schiefer所使用的测试平台不同于典型的Hadoop集群而是为了实现更高的性能而采用了全新的集群设计,使用更多的核心.RAM以及最新的SSD以及100GbE.

【Spark Summit East 2017】现代化你的数据仓库的全新“Sparkitecture”

本讲义出自Myles Collins在Spark Summit East 2017上的演讲,主要介绍了面对数据管道增速,聚合和可视化成为一个简化的,自助的方式的挑战,很多组织开始越来越多地转向求助于Spark, Hadoop, Kafka的结合,并且证明了分析型数据库Vertica等关键实现技术是优化企业级数据仓库体系结构的关键.

【Spark Summit East 2017】使用Spark, Kafka和Elastic Search的大规模预测

本讲义出自Jorg Schad在Spark Summit East 2017上的演讲,主要介绍了使用Spark, Kafka和Elastic Search的大规模预测的方法以及案例,并分享了分布式计算以及数据分析预测应用的架构设计思想.

【Spark Summit East 2017】Apache Toree:Spark的一种Jupyter内核

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,主要介绍了Toree的设计思想,Toree如何与Jupyter生态系统交互,以及用户如何借助强大的插件系统来扩展Apache Toree的功能. 目前许多数据科学家已经在利用Jupyter生态系统并进行数据分析,正在孵化中的Apache Toree是设计用于作为Spark网关,Apache Toree能让用户遵守Jupyter标准,这将允许用户非常简单地将Spark集成到已有的Jupyter生态

【Spark Summit East 2017】使用Alluxio提升Spark效率

本讲义出自Gene Pang与Haoyuan  Li在Spark Summit East 2017上的演讲,主要介绍了Alluxio,前身为Tachyon,是内存加速虚拟分布式存储系统,该系统可以利用内存存储数据,并且加速访问从不同的数据存储系统的数据.Alluxio拥有迅速成长的开源社区,并且已经被部署在阿里巴巴.百度以及Intel等,Alluxio可以提高Spark的效率,并为Spark与各中存储系统之间搭建桥梁,进一步对于数据密集型应用程序进行加速.

【Spark Summit East 2017】使用Spark和Riak构建物联网应用——模式和反模式

本讲义出自Pavel Hardak在Spark Summit East 2017上的演讲,讨论了存储物联网数据的关系型数据库.NoSQL以及对象存储产品的优点和缺点,并将分享使用Spark结合Riak NoSQL数据库的最佳实践,并解释了为何使用Riak获取可伸缩的持久性后的Spark模型能够解决物联网应用的共性问题,最后还结识了为何Structured Spark Streaming给了对于时间序列分析良机.

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.