spark的rdd 可以看做数组吗？那么可以随机取里面的数据吗？

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Python version 2.7.9 (default, Sep 25 2018 20:42:16)
SparkSession available as 'spark'.
>>> sc=spark.read.text('/tmp/temp_file_5.part.gz')
>>> sc.count()
19839
>>> 

我想将这个文件分成4分， 0-5000,5000-10000,15000-19839

怎么将这个rrd分成4份了？
我想取 第h行的数据，能有好的办法吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
蔡能教授，网站特聘专家 2019-10-02 18:15
关注
https://www.cnblogs.com/qingyunzong/p/8899715.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

spark是python库吗_Spark2.1.0入门：Spark MLlib介绍(Python版)
2020-12-06 09:25

weixin_39966602的博客一、什么是机器学习机器学习可以看做是一门人工智能的科学，该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验，以此优化计算机程序的性能标准。一种经常引用的英文定义是：A computer program is said...
【Spark计算引擎----第二篇（RDD）：一篇文章带你清楚什么是RDD？RDD的概念，RDD的特性，怎么创建一个RDD，RDD的算子】
2024-08-01 22:21

书生♡的博客 RDD（Resilient Distributed Dataset）弹性分布式数据集合，是Spark中最基本的数据抽象结构，代表一个不可变（只读）、可分区、里面的元素可并行计算的集合。是Spark中的一种数据类型，管理spark的内存数据。
大数据之Spark（二）：Spark RDD
2021-08-11 23:17

Oak-Komorebi的博客 RDD（Resilient Distributed Dataset）：弹性分布式数据集，是Spark中最基本的数据抽象，它代表⼀个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。...
大数据开发：Spark数据抽象RDD入门
2021-06-10 18:10

加米谷大数据张老师的博客在Spark框架当中，一个核心的数据抽象概念，就是RDD。...RDD的入口是SparkContext，在Spark各种语言中都可以使用，包括Scala，python，java。DataFrame和Dataset是RDD的更高级抽象，RDD是他们的基础。 .
PySpark实战（三）——活用PySpark（Python基础语法复习 & 建立第一个Spark RDD & RDD的操作 [ 见PySpark_operation.ipynb文件 ]）
2023-03-20 10:48

狻猊来当程序媛的博客 RDD操作，Python复习
【Spark】Spark中RDD基础知识总结
2020-06-06 16:11

carroll18的博客 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。...
Spark ML 之 RDD to DataFrame (python版)
2017-12-15 11:21

浮生物语QAQ的博客由于工作需要，最近开始用Python写Spark ML程序，基础知识不过关，导致一些简单的问题困扰了好久，这里记录下来，算是一个小的总结，说不定大家也会遇到同样的问题呢，顺便加一句，官方文档才是牛逼的，虽然我英语很...
Spark RDD总结
2019-11-23 23:17

yisuoyanyv的博客 Spark RDD 总结 2019年11月21日 16:58 RDD两种操作 RDD 支持两种类型的操作：转化操作（transformation）和行动操作（action) 转化操作会由一个RDD生产一个新的RDD。如fliter，map 行动操作会对RDD计算出一个结果。...
SPARK RDD JAVA API 用法指南
2019-08-19 15:01

Zsigner的博客 1.RDD介绍： RDD，弹性分布式数据集，即分布式的元素集合。在spark中，对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后，Spark会自动将RDD中的数据...RDD可以包含Python...
SparkCore 之 RDD 算子超详解！小白也能看懂的入门指南
2025-07-29 18:41

AAA建材批发王师傅的博客对开发者而言，RDD可以看作是Spark的一个对象，它本身运行于内存中，如读文件是一个RDD，对文件计算是一个RDD，结果集也是一个RDD ，不同的分片、数据之间的依赖、key-value类型的map数据都可以看做RDD。
没有解决我的问题, 去提问

spark的rdd 可以看做数组吗？那么 可以随机取里面的数据吗？

1条回答 默认 最新

spark的rdd 可以看做数组吗？那么可以随机取里面的数据吗？

1条回答默认最新