问题描述
在处理一个日志文件的时候,我要对RDD取到指定行列的字符该有什么更高效的操作么?我的处理方法是:rdd.collect(转化为一个Array形式,然后进行操作)
解决方案
解决方案二:
对rdd进行map操作,对每一行调用split分割再取指定列
解决方案三:
试试用SparkSQL。把结构化数据文件导入为DataFrame,然后像操作数据库一样操作文件数据,包括filter,group,agg等
解决方案四:
rdd.flatMap()
时间: 2024-11-18 11:59:11