问题描述
- 对Spark RDD中的数据进行处理 10C
- Spark新手。
现在在程序中生成了一个VertexRDD[(StringString)].
其中的值是如下这种形式的:
(3477267 6106 7716 8221 18603 19717 28189)
(263118589 18595 25725 26023 26026 27866)
(1096918591 25949 25956 26041)
(102189320 19950 20493 26031)
(586018583 18595 25725 26233)
(115011551 26187 27170)
(57172596 5187 5720 18583 25725)
(95019667 20493 25725 26024 26033 26192 27279 27281)
(1339719943 26377)
(28994720 8411 19081 20100 20184 20270 20480 20493 20573 20574 25891)
(1142419816 19819 19841 20244 27098)
(89515914 18609 26057)
(19098797 18608 19785 19786 27531)
(1280720040 20608 27159)(后面用到的数据)
(179531718 6112 18603 18608)前面的值是key,后面的一串字符是value(由空格隔开)
现在我想对于这个RDD,将每一条数据value中的空格隔开的每个值取出并两两组合,形成一个新的key-value的数据,然后形成一个新的RDD,比如
对(1280720040 20608 27159)这一条数据,处理后得到的是
(2004020608)
(2004027159)
(2060827159)
怎么才能实现?求问
解决方案
http://blog.csdn.net/bluejoe2000/article/details/41415087
时间: 2024-09-28 04:56:18