问题描述
#数据说明:#Stage1_train_label.CSV400X7(400行7列),无用数据只有第一列的序列号,#Stage1_train_feature.CSV400X73(400行73列),无用数据第一列是序列号#将RDD元素转换成float型函数defconverttofloat(s):l=(float(i)foriins)returnl#读取数据sc.textFile并去掉label、feature第一列无用数据Data_train_label=sc.textFile(r'Stage1_train_label.CSV',6,0).map(lambdarow:row.split(',')).map(lambdas:s[1:])#不明白6,0是什么意思Data_train_feature=sc.textFile(r'Stage1_train_feature.CSV',72,0).map(lambdarow:row.split(',').map(lambdas:s[1:])Data_train_label_Sum=Data_train_label.map(lambdas:(int(s[0])+2*int(s[1])+4*int(s[2])+10*int(s[3])+20*int(s[4])+40*int(s[5])))#多标签转换成单标签各标签的权值分别是1,2,4,10,20,40Data_train_feature=Data_train_feature.map(converttofloat)#合并数据的目标是:#将Data_train_label_Sum的400个元素依次添加到Data_train_feature400个RDD内最后一个位置Data_train=Data_train_feature.union(Data_train_label_Sum)printData_train.collect()#结果:Data_train_label_Sum的400个元素直接添加到Data_train_feature后面对于这样简单问题,我也不会,查阅资料尝试许久还是没有解决,最终鼓起勇气发帖求救!!求各位前辈指点指点怎么实现添加到数列最后一个位置的合并小白在此谢谢了