本讲义出自Tug Grall在Spark Summit EU上的演讲,主要分享了Spark如何赋能聚合型应用,使得既能够通过实时的线上计算分析保证数据的实时性价值,也能通过离线计算获取大量数据所产生的的价值,从而360度地挖掘出数据的价值。
随着Hadoop以及Spark技术的不断发展,工作的时延也不断缩小,从Hadoop小时级别的时延一直发展到目前Spark流计算毫秒级别的时延。无论对于数据分析还是ETL而言,数据的价值都会随着时间的流逝而大大降低,但是随着数据量的增多,价值将会增加。
为了保证数据分析以及ETL所得到结果的实时性必须使用流计算,而且流计算能够应对在计算过程中不断产生新数据的挑战。并且需要Spark所提供的聚合型计算能力,Spark既能够提供在线的计算分析能力,也能够提供离线的数据分析能力。
时间: 2024-10-15 05:17:18