请问Spark中从文件中创建RDD时分区的数据划分具体机制是什么？

这是我创建RDD的程序代码

package com.syc.bigdata.spark.core.rdd.builder

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Spark02_RDD_File_Par1 {

  def main(args: Array[String]): Unit = {

    //TODO 准备环境
    //*号表示本地环境中最大可用核数，采用多线程模拟集群环境
    var sparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD")
    val sc = new SparkContext(sparkConf)
    //TODO 创建RDD
    //TODO 数据分区的分配
    val rdd: RDD[String] = sc.textFile("datas/1.txt",2)

    rdd.saveAsTextFile("output")
    //TODO 关闭环境
    sc.stop()
  }
}

这是用于读取的文件datas/1.txt，其中CR为回车符，LF为换行符

这是代码运行完成后产生的三个分区数据文件

请问什么样的机制导致了这样的数据划分结果，并且数据的内容产生了变化？（少了两个CR符，多了一个LF符）

注：我使用的spark-core版本为spark-core_2.12-3.0.0.jar

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
咕泡-星云 2021-08-04 17:27
关注
可参考如下，这里有划分分区的各个角度，以及划分分区的源码解析：
https://blog.csdn.net/weixin_40751045/article/details/89517839
https://blog.csdn.net/qq_43192537/article/details/110279319
https://www.cnblogs.com/guoyu1/p/12300404.html
https://blog.csdn.net/qq_40180229/article/details/105587878
https://blog.csdn.net/qq_26502245/article/details/88369642
如有帮助，望采纳

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

spark中创建RDD有关问题 spark
2022-06-03 20:23

回答 1 已采纳 Python SparkConf.setAppName方法代码示例 - 纯净天空 Python SparkConf.setAppName方
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
如何在IntelliJ IDEA中安装完scala后，spark包报红？ intellij-idea spark
2022-04-19 11:52

回答 2 已采纳依赖和依赖的版本都要对上
spark中RDD的分区
2022-04-28 10:33

大大大大肉包的博客 Partition 类内包含一个 index 成员,表示该分区在 RDD 内的编号，通过 RDD 编号 + 分区编号可以唯一确定该分区对应的块编号,利用底层数据存储层提供的接口,就能从存储介质(如:HDFS、Memory)中提取出分区对应的数据。...
spark集成hbase过程中RDD转换问题 hbase spark
2021-10-28 11:43

回答 1 已采纳用flatmap
dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？ hadoop python spark
2022-11-29 23:12

回答 1 已采纳那么dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？----- 这些懂了可以更加清楚spark的数据转换过程，知道的底层更对多对写代码的优化会更加好
spark，为什么下面这个rdd.collect会报空指针 scala
2020-05-11 23:57

回答 1 已采纳 https://blog.csdn.net/high2011/article/details/53138279
Spark中的RDD是什么？请解释其概念和特点。
2023-09-11 13:00

极客李华的博客综上所述，RDD是Spark中的核心抽象，用于表示分布式计算过程中的数据集合。弹性：RDD是弹性的，即可以在内存中缓存数据，并支持容错性。这意味着当计算节点发生故障时，可以重新计算丢失的数据分区，而不需要重新...
则rdd.getNumPartitions的结果是什么 spark
2022-11-29 12:53

回答 1 已采纳 RDD.getNumPartitions()返回 RDD 中的分区数所以答案是：2
spark读取不了本地文件是怎么回事 spark
2018-05-18 09:25

回答 2 已采纳如果程序中读取的是本地文件，那么，要在所有的节点都有这个数据文件，只在master中有这个数据文件时执行程序时一直报找不到文件解决方式1：让每个Worker节点的相应位置都有要读取的数据文件。
spark创建外部表时报错 spark
2017-09-22 03:23

回答 2 已采纳可能是scala驱动版本不匹配
什么是RDD?带你快速了解Spark中RDD的概念!
2020-02-23 11:35

大数据梦想家的博客 ...但其中，我们曾提到过Spark程序的核心，也就是弹性分布式数据集(RDD)。但到底什么是RDD,它是做什么用的呢？本篇博客，我们就来详细讨论它们的使用情况。文章目录RDD概述1.什么是RDD2.R...
Spark实验统计信息缺失个数报错，如何解决？(语言-scala) hive scala spark
2022-05-17 10:42

回答 1 已采纳 target字段转数字失败，你看一下数据对应的该字段是不是有非数字的值
Spark RDD弹性分布式数据集——RDD的分区和依赖关系
2022-05-06 17:06

尘埃要变大佬的博客 Spark RDD弹性分布式数据集——RDD的分区和依赖关系
Spark中RDD概述及RDD算子详解
2024-05-21 19:59

灰太狼！！的博客 Spark中RDD概述及RDD算子详解
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月30日

悬赏问题

¥20 python忆阻器数字识别
¥15 无法输出helloworld
¥15 高通uboot 打印ubi init err 22
¥20 PDF元数据中的XMP媒体管理属性
¥15 R语言中lasso回归报错
¥15 网站突然不能访问了，上午还好好的
¥15 有没有dl可以帮弄”我去图书馆”秒选道具和积分
¥15 semrush,SEO,内嵌网站，api
¥15 Stata:为什么reghdfe后的因变量没有被发现识别啊
¥15 振荡电路，ADS仿真

请问Spark中从文件中创建RDD时分区的数据划分具体机制是什么？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新