2 sdujava2011 sdujava2011 于 2015.07.17 16:01 提问

对Spark RDD中的数据进行处理 10C

Spark新手。
现在在程序中生成了一个VertexRDD[(String,String)].
其中的值是如下这种形式的:
(3477,267 6106 7716 8221 18603 19717 28189)
(2631,18589 18595 25725 26023 26026 27866)
(10969,18591 25949 25956 26041)
(10218,9320 19950 20493 26031)
(5860,18583 18595 25725 26233)
(11501,1551 26187 27170)
(5717,2596 5187 5720 18583 25725)
(950,19667 20493 25725 26024 26033 26192 27279 27281)
(13397,19943 26377)
(2899,4720 8411 19081 20100 20184 20270 20480 20493 20573 20574 25891)
(11424,19816 19819 19841 20244 27098)
(8951,5914 18609 26057)
(1909,8797 18608 19785 19786 27531)
(12807,20040 20608 27159)(后面用到的数据)
(17953,1718 6112 18603 18608)

前面的值是key,后面的一串字符是value(由空格隔开)

现在我想对于这个RDD,将每一条数据value中的空格隔开的每个值取出并两两组合,形成一个新的key-value的数据,然后形成一个新的RDD,比如
对(12807,20040 20608 27159)这一条数据,处理后得到的是
(20040,20608)
(20040,27159)
(20608,27159)
怎么才能实现?求问

1个回答

caozhy
caozhy   Ds   Rxr 2015.07.19 14:28
Csdn user default icon
上传中...
上传图片
插入图片