Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.3.1
/_/
Using Python version 2.7.9 (default, Sep 25 2018 20:42:16)
SparkSession available as 'spark'.
>>> sc=spark.read.text('/tmp/temp_file_5.part.gz')
>>> sc.count()
19839
>>>
我想将这个文件分成4分, 0-5000,5000-10000,15000-19839
怎么将这个rrd分成4份了?
我想取 第h行的数据,能有好的办法吗?
spark的rdd 可以看做数组吗?那么 可以随机取里面的数据吗?
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-