【Spark Summit EU 2016】基于Spark+Lucene构建近实时预测模型

本讲义出自Debasish Das与Pramod Narasimha在Spark Summit EU 2016上的演讲，主要介绍了基于Spark和Lucene构建的近实时预测模型。

时间： 2024-10-28 05:31:09

【Spark Summit EU 2016】基于Spark+Lucene构建近实时预测模型的相关文章

【Spark Summit EU 2016】Spark数据感知

本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲,聚合了物联网.社交网络和电信数据的应用在"玩具"数据集上运行的非常好,但是将应用部署到真实的数据集上时就没有看上去那么合适了,事实上可能变得令人惊讶的缓慢甚至会崩溃,这就是所谓的数据倾斜(data-skew),为了应对这一问题,Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架.本讲义就介绍了这个基于Spark的数据感知分布式数据处理框架的技术细节.

【Spark Summit EU 2016】Spark——打造处理石油工业数据的全球化计算引擎

本讲义出自Yaroslav Nedashkovsky与Andy Starzhinsky在Spark Summit EU 2016上的演讲,主要介绍了从数据收集到预测分析的石油行业的数据分析过程,分享了石油工业的概览,以及从数据源头到数据收集,再到数据分析的全过程,并且分享了如何利用Spark打造处理石油工业数据的全球化计算引擎.

【Spark Summit EU 2016】Spark应用的动态实时修改

本讲义出自Elena Lazovik在Spark Summit EU 2016上的演讲,主要介绍了对于对于Spark驱动的应用而言,需要能够在某些情景下修改某些功能或者参数以及改变数据来源,而这些操作不能让整个应用停止运行,这就需要对于Spark应用的动态实时修改来完成.

【Spark Summit EU 2016】Spark中的自动检查点

本讲义出自Nimbus Goehausen在Spark Summit EU 2016上的演讲,主要介绍了面对需要自动保证Spark的数据来源以及存储路径正确,并且在对于需要保存的数据进行保存而对于需要改变的数据进行改变,所以需要在Spark工作流中使用自动检查点来对以上要求进行保障,本讲义就主要介绍了Spark中自动检查点的设计动机.工作原理以及使用方法.

【Spark Summit EU 2016】Spark的性能，过去、现在与未来

本讲义出自Sameer Agarwal在Spark Summit EU 2016上的演讲,他首先从机器的存储.网络以及CPU等硬件的性能发展变化讲起,再谈到软件中Spark IO的优化.数据格式的改进提升,并介绍了Tungsten项目,该项目的目标是大幅度地提升Spark集群的内存和CPU的执行效率,推动Spark的性能最大可能地接近硬件性能的极限.

【Spark Summit EU 2016】Spark Steaming + 动态配置+动态分配构建弹性流计算

本讲义出自Shaun Klopfenstein和Neelesh Shastry在Spark Summit EU上的演讲,主要介绍了为了面对当前大数据分析的业务需求和SaaS需求,使用Spark Steaming的优势所在,以及为了应对Spark+Kafka所带来的挑战,所设计出的Marketo框架.并且分享了Marketo框架强大的动态配置能力.偏移管理.多租户DStream以及动态资源分配的能力.

【Spark Summit EU 2016】Spark与Couchbase——使用Spark扩展数据库操作

本讲义出自Michael Nitschinger在Spark Summit EU上的演讲,主要介绍了Spark与Couchbase结合来扩展对于数据库的操作,并分享了使用Spark与Couchbase进行分析与机器学习.数据集成等用例,以及两种部署方式.除此之外,Michael Nitschinger还对于Spark与Couchbase结合对于数据的访问方式进行了详细地介绍.

【Spark Summit EU 2016】Spark如何赋能聚合型应用新浪潮

本讲义出自Tug Grall在Spark Summit EU上的演讲,主要分享了Spark如何赋能聚合型应用,使得既能够通过实时的线上计算分析保证数据的实时性价值,也能通过离线计算获取大量数据所产生的的价值,从而360度地挖掘出数据的价值. 随着Hadoop以及Spark技术的不断发展,工作的时延也不断缩小,从Hadoop小时级别的时延一直发展到目前Spark流计算毫秒级别的时延.无论对于数据分析还是ETL而言,数据的价值都会随着时间的流逝而大大降低,但是随着数据量的增多,价值将会增加. 为了保

【Spark Summit EU 2016】Sparkling Water 2.0:下一代基于Spark的机器学习平台

本讲义出自Jakub Háva在Spark Summit EU 2016上的演讲,主要介绍了由开源的人工智能平台H2O.AI结合Spark构建的机器学习平台Sparkling Water,Sparkling Water集成了H2O平台与Spark生态系统,使用了H2O的数据结构以及算法与Spark的API,Sparkling Water平台将用于构建人工智能和机器学习的应用. Jakub Háva在演讲中,从建立模型.数据治理再到流处理等一系列如何使用Sparkling Water进行了分享,并