在使用Spark Streaming向HDFS中保存数据时，文件内容会被覆盖掉，怎么解决？

我的Spark Streaming代码如下所示：

 val lines=FlumeUtils.createStream(ssc,"hdp2.domain",22222,StorageLevel.MEMORY_AND_DISK_SER_2)

val words = lines.filter(examtep(_))
words.foreachRDD(exam(_))

//some other code

 def exam(rdd:RDD[SparkFlumeEvent]):Unit={
    if(rdd.count()>0) {
      println("****Something*****")
      val newrdd=rdd.map(sfe=>{
      val tmp=new String(sfe.event.getBody.array())
      tmp
      })
    newrdd.saveAsTextFile("/user/spark/appoutput/Temperaturetest")
    }
}

当words.foreachRDD(exam(_))中每次执行exam()方法的时候，都会执行newrdd.saveAsTextFile("/user/''''''")，但是HDFS上Temperaturetest文件夹里的内容每次都会被覆盖掉，只保存着最后一次saveAsTextFIle的内容，怎样才能让所有数据都存储到Temperaturetest中呢？？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

编辑

预览

报告相同问题？

关注问题

java 后台查询数据使用spark Streaming处理 java spark
2017-08-04 02:06

回答 1 已采纳 http://blog.csdn.net/svmachine/article/details/52200761
以flume为数据源的spark streaming flume spark
2022-11-08 12:23

回答 1 已采纳看下是不是还有报错classNotFoundException.应该是你导入包的时候补全少了AvroSourceProtocol相关包或者是版本依赖错了.首先看下这个类是那个jar里面的，然后再分
这个kafka在Sparkstreaming生产者出问题 kafka spark
2023-01-23 11:40

回答 2 已采纳看起来你好像少这个jar ： kafka-clients，查找一下项目里引用了没有另外就是需要你check一下你代码里是否使用了 StringDeserializer 代替了 StringSer
基于Spark Streaming将图片以流的方式写入HDFS分布式文件系统.zip
2023-12-23 16:31

通常在这种结构中，我们可以期待找到关于图片处理、数据流定义、Spark配置、HDFS交互等相关代码。 **详细知识点：** 1. **Spark Streaming**：Spark Streaming构建在Spark Core之上，提供了微批处理的方式处理实时...
在spark streaming中实时更新mllib的ALS算法的模型遇到的问题！ mllib spark
2015-06-15 01:01

回答 1 已采纳问题已解决。。。 allData 加上cache之后异常可以解决了，这是为什么呢？其中又出现了一个错误： ![图片说明](https://img-ask.csdn.net/upload/20
关于#spark#的问题：SparkStreaming中用到了SparkSession，会话完成之后需要关闭的位置 spark 有问必答
2021-10-25 07:00

回答 2 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
spark和hadoop hadoop spark 大数据
2022-12-23 08:57

回答 2 已采纳集群还在启动吧，还是在安全模式，无法创建文件夹，稍等一会儿集群完全启动成功后就可以了。
sparkStreaming 写入 hdfs
2020-08-07 14:21

AuroraPetard的博客 1.saveAsTextFile value.repartition(1).map(_.mkString(",")).foreachRDD(rdd => { ...如果使用固定文件名调用，则每次都会覆盖它。我们每次都可以saveAsTextFile(path+timestamp(System.cur
【急】easyPoi使用ExcelExportUtil.exportBigExcel大数据导出报错 java
2021-08-06 09:20

回答 1 已采纳已解决，poi版本冲突问题
Atlas关联spark插件编译报错大数据
2023-01-17 02:39

回答 3 已采纳这个是github上个人维护的spark-aql勾子程序,你的问题应该是设置高版本的spark和scala,造成了一些版本冲突,而且高版本中许多类都更新过了,当然找不到.(1)<import o
如何使用 Delphi RestClient 读取流数据？
2016-02-27 04:30

回答 3 已采纳用TIdeventstream方法效率更高： ResponseEventStrem:TIdEventStream; ResponseEventStrem.OnWrite :=
【spark】Spark Streaming写HDFS解决小文件问题思考
2020-03-19 11:48

lsr40的博客然后往往这些数据我们会写到hdfs，但是写到hdfs就会遇到小文件的问题，其实我之前分享过批处理如何解决小文件的问题大家有兴趣可以去看看。【spark】存储数据到hdfs，自动判断合理分块数量（repartition和...
Nginx webAssembly wasm streaming compile failed javascript nginx 前端
2022-09-20 05:05

回答 1 已采纳唉，只能说自己经验太少了，好久才想到有可能是浏览器缓存没清除导致的清楚缓存后，加载成功
大数据技术原理及应用课实验7 :Spark初级编程实践
2024-01-16 12:03

在"大数据技术原理及应用课实验7：Spark初级编程实践"中，我们主要关注Spark的两个核心知识点：数据读取和Spark应用程序的开发流程。首先，Spark提供了一种简单的方式去访问不同的数据源，包括本地文件系统和...
Spark Streaming处理hdfs上数据流时，取不到hdfs数据流得数据
2020-08-21 00:32

Smile to everyday的博客 Spark Streaming的spark代码运行时发现收取不到hdfs相应的是数据流案例代码 import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.{Seconds, ...
没有解决我的问题, 去提问

悬赏问题

¥15 PADS Logic 原理图
¥15 PADS Logic 图标
¥15 电脑和power bi环境都是英文如何将日期层次结构转换成英文
¥20 气象站点数据求取中~
¥15 如何获取APP内弹出的网址链接
¥15 wifi 图标不见了不知道怎么办上不了网变成小地球了

码龄粉丝数原力等级 --

在使用Spark Streaming向HDFS中保存数据时，文件内容会被覆盖掉，怎么解决？

0条回答默认最新

悬赏问题

在使用Spark Streaming向HDFS中保存数据时，文件内容会被覆盖掉，怎么解决？

0条回答 默认 最新

悬赏问题

0条回答默认最新