rpmdeb 2019-09-19 17:58 采纳率: 0%
浏览 621

spark的rdd 可以看做数组吗?那么 可以随机取里面的数据吗?

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Python version 2.7.9 (default, Sep 25 2018 20:42:16)
SparkSession available as 'spark'.
>>> sc=spark.read.text('/tmp/temp_file_5.part.gz')
>>> sc.count()
19839
>>> 

我想将这个文件分成4分, 0-5000,5000-10000,15000-19839

怎么将这个rrd分成4份了?
我想取 第h行的数据,能有好的办法吗?

  • 写回答

1条回答 默认 最新

  • 关注
    评论

报告相同问题?