spark的rdd 可以看做数组吗?那么 可以随机取里面的数据吗?
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Python version 2.7.9 (default, Sep 25 2018 20:42:16)
SparkSession available as 'spark'.
>>> sc=spark.read.text('/tmp/temp_file_5.part.gz')
>>> sc.count()
19839
>>> 

我想将这个文件分成4分, 0-5000,5000-10000,15000-19839

怎么将这个rrd分成4份了?
我想取 第h行的数据,能有好的办法吗?

weixin_44144932
rpmdeb 自己定义一个分区的方法fun soc.zipWithIndex().map(lambda (key, value): (value, key)).partitionBy(PARTS,partitionFunc=func).values().saveAsTextFile(outputpath,codec)
大约一个月之前 回复

1个回答

weixin_44144932
rpmdeb 已经找到方法了,soc.zipWithIndex().map(lambda (key, value): (value, key)).partitionBy(PARTS,partitionFunc=func).values().saveAsTextFile(outputpath,codec)
大约一个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!