SparkStreaming + kafka 中将offset存入zookeeper报错的问题

object StreamingKafka {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[3]")
      .set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
    var offsetRanges: Array[OffsetRange] = Array.empty[OffsetRange]
    val ssc = new StreamingContext(conf,Seconds(2))
    val zkManager = new KafkaOffsetZKManager("localhost:2181");
//    ssc.checkpoint("hdfs://192.168.71.142:9000/checkpoint")

    val streaminputs =StreamingKafkaTool.getInputStream(ssc,args,zkManager)

    streaminputs.foreachRDD(rdd=>{
      offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
//      zkManager.storeOffsets(offsetRanges,"log_01")                         ----------------------  1---------
//      streaminputs.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
    })


    val rddStream =streaminputs.map(recordcomsumer=>{

      StreamingKafkaTool.etlData(recordcomsumer)
    }).filter(record=>record.courseId!=0)

//    rddStream.foreachRDD(rdd=>{rdd.foreachPartition(partitions=>partitions.foreach(r=>println(r.courseId)))})
    rddStream.map(line=>{
      (line.time.substring(0,8)+"_"+line.courseId,1)
    }).reduceByKey(_+_)
      .foreachRDD(rdd=>{
        rdd.foreachPartition(partitions=>{
          val list = new ListBuffer[CourseClickCount]
          partitions.foreach(item=>{
            list.append(CourseClickCount(item._1,item._2))
          })
          CourseClickCountDao.save(list)
          zkManager.storeOffsets(offsetRanges,"log_01")      --------------2--------------------
        })

      })
    ssc.start()
    ssc.awaitTermination()

  }

}

storeOffsets(offsetRanges,"log_01") 是我自定义的将offset保存到zookeeper的方法。当我把zkManager.storeOffsets(offsetRanges,"log_01") 写在 ---------------------- 1---------处时没问题，代码能正常执行，然而当我放在--------------2--------------------处时却报 Exception in thread "main" org.apache.spark.SparkException: Task not serializable Caused by: java.io.NotSerializableException: cn.zdl.sparkstudy.utils.KafkaOffsetZKManager
Serialization stack: 的异常，小白不懂，求各位大牛指导，不胜感激。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

这个kafka在Sparkstreaming生产者出问题 kafka spark
2023-01-23 19:40

回答 2 已采纳看起来你好像少这个jar ： kafka-clients，查找一下项目里引用了没有另外就是需要你check一下你代码里是否使用了 StringDeserializer 代替了 StringSer
zookeeper 设置 Acl 后 kafka 启动失败 kafka zookeeper 分布式
2022-09-26 17:35

回答 1 已采纳网上都有相关文章，例如，你可以参考这篇：https://www.bilibili.com/read/cv11773508里面就有涉及到这两个的安全认证配置。
spark structured steaming与kafka集成offset管理方式 kafka spark
2023-01-31 14:43

回答 2 已采纳 Spark Structured Streaming 集成 Kafka 的 offset 管理方式有如下几种：利用 Spark checkpoint 文件提交 offset 给 Kafka常用的方案
[技术应用] 将 Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
2018-12-28 21:55

YZY_001的博客问题导读： 1. 使用Direct API时为什么需要见offset保存到Zookeeper中？...实现将offset存入Zookeeper 在 Spark Streaming 中消费 Kafka 数据的时候，有两种方式分别是 1）基于 Receiver-based 的 createS...
在win10启动kafka报错 kafka zookeeper
2022-05-15 21:27

回答 1 已采纳删除异常的主题“movie_real_topic”试试.\bin\kafka-topics --delete --topic movie_real_topic --zookeeper localhos
spring+kafka+hive实现动作提取到数据仓库 hive kafka spring
2022-07-13 14:53

回答 1 已采纳尚硅谷的电商案例里面有介绍
为什么kafka启动总是报错呢？ kafka linux storm
2022-09-01 17:56

回答 2 已采纳似乎是权限问题，你可以看看报错的文件路径权限组看看，使用 ls -l /home/…
Sparkstreaming读取kafka数据写入hive和es
2020-03-22 14:42

天涯到处跑的博客 } } 到kafka上验证是否已经有数据： sh bin/kafka-console-consumer.sh --zookeeper ELK01:2181 --from-beginning --topic test1 2.SparkStreaming从kafka中消费消息 sparkstreaming 从kafka中消费消息有两中方式 1...
kafka中的 zookeeper 起到什么作用，可以不用zookeeper么？ kafka zookeeper 后端
2021-09-24 21:33

回答 1 已采纳作用其实就是你理解的那样，zk就是协调的组件，但是不用它的话，也需要实现类似的功能。也有其他mq不用ZK也实现了同样的功能
kafka向zookeeper注册问题 kafka zookeeper
2017-02-16 07:50

回答 1 已采纳 http://blog.csdn.net/tianbianlan/article/details/46387039
flinksql读取kafka数据报错 flink kafka
2022-07-13 20:33

回答 3 已采纳 restclient异常，先看看taskmanager和jobmanager是否正常，然后你可以在jobmanager的节点上访问webUI查看job状态，又或者直接查看宿主机上的日志排查问题
ELK+Filebeat+Kafka+ZooKeeper+Grafana大数据日志收集与分析平台
2022-09-12 18:28

wespten的博客采用Java语言编写，可以实现数据内容存储、检索、排序、查询、报表统计、生成等功能，日志的分析以及存储全部由ElasticSearch完成。目前，最新的版本是Elasticsearch 6.3.2，它的主要特点如下：1）实时搜索，实时...
nginx安装kafka插件后，启动nginx报错 kafka nginx 有问必答
2021-08-25 12:07

回答 1 已采纳你看第二行，已经告诉你异常了。“Disconnected while requesting ApiVersion: might be caused by incorrect security.prot
大数据最佳实践-sparkstreaming
2021-04-21 15:42

猿与禅的博客目录概述性能调优减少批处理时间数据接收中的并行度容错语义自定义接收器如何在Spark流中实现精确语义与幂等写入恰好一次与事务写入完全一致实现-zookeeper实现-hbase实现方式-mysql 概述 Spark Streaming是核心...
sparkStreaming 消费下沉 kafka 以及调优
2020-05-27 23:06

AuroraPetard的博客 sparkStreaming 消费下沉 kafka 以及调优 1 sparkStreaming 消费kafka 主要方式有两种：receiver方式、Direct方式 Receiver方式利用kafka高阶的api，将数据存储到exectors，这种方法会丢失数据，要确保零丢失需要...
没有解决我的问题, 去提问

悬赏问题

¥50 永磁型步进电机PID算法
¥15 sqlite 附加（attach database）加密数据库时，返回26是什么原因呢？
¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)
¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥200 uniapp长期运行卡死问题解决
¥15 latex怎么处理论文引理引用参考文献
¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？

码龄粉丝数原力等级 --

SparkStreaming + kafka 中将offset存入zookeeper报错的问题

0条回答默认最新

悬赏问题

SparkStreaming + kafka 中将offset存入zookeeper报错的问题

0条回答 默认 最新

悬赏问题

0条回答默认最新