编程-对Spark RDD中的数据进行处理

问题描述

对Spark RDD中的数据进行处理 10C
Spark新手。
现在在程序中生成了一个VertexRDD[(StringString)].
其中的值是如下这种形式的:
(3477267 6106 7716 8221 18603 19717 28189)
(263118589 18595 25725 26023 26026 27866)
(1096918591 25949 25956 26041)
(102189320 19950 20493 26031)
(586018583 18595 25725 26233)
(115011551 26187 27170)
(57172596 5187 5720 18583 25725)
(95019667 20493 25725 26024 26033 26192 27279 27281)
(1339719943 26377)
(28994720 8411 19081 20100 20184 20270 20480 20493 20573 20574 25891)
(1142419816 19819 19841 20244 27098)
(89515914 18609 26057)
(19098797 18608 19785 19786 27531)
(1280720040 20608 27159)(后面用到的数据)
(179531718 6112 18603 18608)

前面的值是key,后面的一串字符是value(由空格隔开)

现在我想对于这个RDD,将每一条数据value中的空格隔开的每个值取出并两两组合,形成一个新的key-value的数据,然后形成一个新的RDD,比如
对(1280720040 20608 27159)这一条数据,处理后得到的是
(2004020608)
(2004027159)
(2060827159)
怎么才能实现?求问

解决方案

http://blog.csdn.net/bluejoe2000/article/details/41415087

时间: 2024-09-28 04:56:18

编程-对Spark RDD中的数据进行处理的相关文章

Android编程实现在adapter中进行数据操作的方法

本文实例讲述了Android编程实现在adapter中进行数据操作的方法.分享给大家供大家参考,具体如下: package com.cvte.apkclassify; import java.util.ArrayList; import android.content.Context; import android.content.pm.ApplicationInfo; import android.content.pm.PackageInfo; import android.content.p

关于合并用python导入spark,RDD中的CSV数据的问题

问题描述 #数据说明:#Stage1_train_label.CSV400X7(400行7列),无用数据只有第一列的序列号,#Stage1_train_feature.CSV400X73(400行73列),无用数据第一列是序列号#将RDD元素转换成float型函数defconverttofloat(s):l=(float(i)foriins)returnl#读取数据sc.textFile并去掉label.feature第一列无用数据Data_train_label=sc.textFile(r'S

spark-在使用Spark Streaming向HDFS中保存数据时,文件内容会被覆盖掉,怎么解决?

问题描述 在使用Spark Streaming向HDFS中保存数据时,文件内容会被覆盖掉,怎么解决? 我的Spark Streaming代码如下所示: val lines=FlumeUtils.createStream(ssc,"hdp2.domain",22222,StorageLevel.MEMORY_AND_DISK_SER_2) val words = lines.filter(examtep(_)) words.foreachRDD(exam(_)) //some other

java网络编程中IO数据输入输出阻塞

问题描述 java网络编程中IO数据输入输出阻塞 服务端代码如下: public class Server { public static void main(String[] args) throws IOException { ServerSocket ss = new ServerSocket(30000); Socket socket = ss.accept(); PrintStream ps = new PrintStream(socket.getOutputStream()); ps

c-C语言数据库编程,往数据库中写入一条数据,编译出错

问题描述 C语言数据库编程,往数据库中写入一条数据,编译出错 #include #include #include char userid[10] = "gaps/gaps"; int main() { char yw_xh[8] = "2"; char yw_xm[20] = "王小二"; char yw_xb = 'W'; char yw_yx[50] = "气象学院"; int yw_ywcj = 80; int yw_

VS2013 C++串口编程,接收刷卡器数据,调试显示字符串中的字符无效

问题描述 VS2013 C++串口编程,接收刷卡器数据,调试显示字符串中的字符无效 C++代码: hcom = CreateFile(_T("COM3"), GENERIC_READ | GENERIC_WRITE, 0, NULL, OPEN_EXISTING , FILE_ATTRIBUTE_NORMAL, NULL); if (hcom == INVALID_HANDLE_VALUE) { return; } SetupComm(hcom, 1024, 1024); COMMTI

请问在C#窗口编程中,如何将 DataGridView控件中的数据(包括头文字和之后的行列数据)用txt文本文件格式输出来

问题描述 请问在C#窗口编程中,如何将DataGridView控件中的数据(包括头文字和之后的行列数据)用txt文本文件格式输出来 解决方案 解决方案二:http://blog.sina.com.cn/s/blog_4c1f37df0100hk5g.html

Java网络编程从入门到精通(34):读写缓冲区中的数据---使用get和put方法按顺序读写单个数据

本文为原创,如需转载,请注明作者和出处,谢谢! 上一篇:Java网络编程从入门到精通(33):非阻塞I/O的缓冲区(Buffer)     对于缓冲区来说,最重要的操作就是读写操作.缓冲区提供了两种方法来读写缓冲区中的数据:get.put方法和array方法.而get.put方法可以有三种读写数据的方式:按顺序读写单个数据.在指定位置读写单个数据和读写数据块.除了上述的几种读写数据的方法外,CharBuffer类还提供了用于专门写字符串的put和append方法.在本文及后面的文章中将分别介绍这

mfc windows编程-急急急!怎么在MFC在已读文件中修改数据?

问题描述 急急急!怎么在MFC在已读文件中修改数据? 我用windows的CreateFile函数来读写文件数据的,我现在遇到一个问题就是在已经可读的文件当中再次写数据,写的开始要清除里面的数据在进行写.急求解啊!!!