本讲义出自Pat Patterson在Spark Summit EU上的演讲,他首先介绍了数据工程中的一个难点就是数据漂流(Data Drift),以及应对数据漂流所出现的一些解决方案。之后详细介绍了开发和操作复杂数据流的开源软件StreamSets,并分享了当前在Spark上比较流行的数据通道。
时间: 2024-11-06 09:31:44
本讲义出自Pat Patterson在Spark Summit EU上的演讲,他首先介绍了数据工程中的一个难点就是数据漂流(Data Drift),以及应对数据漂流所出现的一些解决方案。之后详细介绍了开发和操作复杂数据流的开源软件StreamSets,并分享了当前在Spark上比较流行的数据通道。