spark RDD中的元组如何按照指定格式保存到HDFS上？

请教一个问题：spark数据清洗的结果为RDD[(String, String)]类型的rdd，在这个RDD中，每一个元素都是一个元组。元组的key值是文件名，value值是文件内容，我现在想把整个RDD保存在HDFS上，让RDD中的每一个元素保存为一个文件，其中key值作为文件名，而value值作为文件内容。

应该如何实现呢？

RDD好像不支持遍历，只能通过collect()方法保存为一个数组，再进行遍历，但是这样可能会把内存撑爆，目前的做法是先把RDD通过saveAsTextFile方法保存在HDFS上，然后再使用FSDataInputStream输入流对保存后的part文件进行遍历读取，使用输出流写到HDFS上，这样很耗时。

请问有没有好一点的方法，可以直接把RDD的内容写到HDFS上呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
gangyonglin 2017-12-21 06:03
关注
RDD好像不支持遍历，只能通过collect()方法保存为一个数组，再进行遍历，但是这样可能会把内存撑爆，目前的做法是先把RDD通过saveAsTextFile方法保存在HDFS上，然后再使用FSDataInputStream输入流对保存后的part文件进行遍历读取，使用输出流写到HDFS上，这样很耗时

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
spark中创建RDD有关问题 spark
2022-06-03 20:23

回答 1 已采纳 Python SparkConf.setAppName方法代码示例 - 纯净天空 Python SparkConf.setAppName方
spark集成hbase过程中RDD转换问题 hbase spark
2021-10-28 11:43

回答 1 已采纳用flatmap
大数据——Spark RDD常用算子总结
2021-07-28 17:15

Vicky_Tang的博客 Spark的核心是建立在同一的抽象弹性分布式数据集（Resilient Distributed Datasets，RDD）之上的，这使得Spark的各个组件可以无缝的进行集成，能够在同一个应用程序中完成大数据处理 1.RDD基本概念 RDD是spark提供...
spark计算hdfs上的文件时报错 hdfs spark
2015-07-23 08:15

回答 2 已采纳 spark-src中的pom.xml里有一个protibuf.version属性为2.4.1 而hadoop用的2.5.0修改后重新编译好用
如何将spark读入的txtRDD文本转为Vector格式 mllib spark 机器学习
2018-11-19 09:05

回答 1 已采纳 https://blog.csdn.net/coding01/article/details/81512430
spark，为什么下面这个rdd.collect会报空指针 scala
2020-05-11 23:57

回答 1 已采纳 https://blog.csdn.net/high2011/article/details/53138279
第三课 大数据技术之Spark-RDD介绍和转换算子
2022-10-17 01:16

道教儒佛电磁波的博客 RDD和转换算子
关于spark RDD求平均的问题
2015-11-23 12:10

回答 1 已采纳先转化为pairrdd，以时段为键，分数次数为值，然后以键aggregate聚合，统计每个键下的值就行了
dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？ hadoop python spark
2022-11-29 23:12

回答 1 已采纳那么dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？----- 这些懂了可以更加清楚spark的数据转换过程，知道的底层更对多对写代码的优化会更加好
Spark实验统计信息缺失个数报错，如何解决？(语言-scala) hive scala spark
2022-05-17 10:42

回答 1 已采纳 target字段转数字失败，你看一下数据对应的该字段是不是有非数字的值
第四课 大数据技术之Spark-RDD行动算子和累加器
2022-10-17 01:23

道教儒佛电磁波的博客 RDD行动算子和累加器
则rdd.getNumPartitions的结果是什么 spark
2022-11-29 12:53

回答 1 已采纳 RDD.getNumPartitions()返回 RDD 中的分区数所以答案是：2
大数据课程——Spark RDD 编程
2022-06-06 16:50

冰冷灬泡面的博客 大数据课程——Spark RDD编程
spark-RDD原理与操作(超级详细)
2023-05-14 08:52

研发咨询顾问的博客通过基于RDD的一系列转换，丢失的数据会被重算，由于RDD的各个Partition是相对独立的，...（2）理解：RDD是由分区组成，每个分区运行在不同的Worker上，通过这种方式来实现分布式计算，RDD是逻辑概念，分区是物理概念。
没有解决我的问题, 去提问

悬赏问题

¥20 双层网络上信息-疾病传播
¥50 paddlepaddle pinn
¥20 idea运行测试代码报错问题
¥15 网络监控：网络故障告警通知
¥15 django项目运行报编码错误
¥15 请问这个是什么意思？
¥15 STM32驱动继电器
¥15 Windows server update services
¥15 关于#c语言#的问题：我现在在做一个墨水屏设计，2.9英寸的小屏怎么换4.2英寸大屏
¥15 模糊pid与pid仿真结果几乎一样

spark RDD中的元组如何按照指定格式保存到HDFS上？

3条回答 默认 最新

悬赏问题

3条回答默认最新