Xeon-Shao 2015-07-17 08:01 采纳率: 0%
浏览 3655
已结题

对Spark RDD中的数据进行处理

Spark新手。
现在在程序中生成了一个VertexRDD[(String,String)].
其中的值是如下这种形式的:
(3477,267 6106 7716 8221 18603 19717 28189)
(2631,18589 18595 25725 26023 26026 27866)
(10969,18591 25949 25956 26041)
(10218,9320 19950 20493 26031)
(5860,18583 18595 25725 26233)
(11501,1551 26187 27170)
(5717,2596 5187 5720 18583 25725)
(950,19667 20493 25725 26024 26033 26192 27279 27281)
(13397,19943 26377)
(2899,4720 8411 19081 20100 20184 20270 20480 20493 20573 20574 25891)
(11424,19816 19819 19841 20244 27098)
(8951,5914 18609 26057)
(1909,8797 18608 19785 19786 27531)
(12807,20040 20608 27159)(后面用到的数据)
(17953,1718 6112 18603 18608)

前面的值是key,后面的一串字符是value(由空格隔开)

现在我想对于这个RDD,将每一条数据value中的空格隔开的每个值取出并两两组合,形成一个新的key-value的数据,然后形成一个新的RDD,比如
对(12807,20040 20608 27159)这一条数据,处理后得到的是
(20040,20608)
(20040,27159)
(20608,27159)
怎么才能实现?求问

  • 写回答

2条回答 默认 最新

  • threenewbee 2015-07-19 06:28
    关注
    评论

报告相同问题?

悬赏问题

  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?
  • ¥15 c++头文件不能识别CDialog