driect自定义偏移量消费数据，但是获取zookeeper上的偏移量的时候出了问题。。

报错如下：
2018-10-16 15:20:21,156 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Property auto.offset.reset is overridden to largest
2018-10-16 15:20:21,156 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Property group.id is overridden to testGroup
2018-10-16 15:20:21,156 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Property zookeeper.connect is overridden to pure:2181,pure_CDH2:2181,pure_CDH3:2181
2018-10-16 15:20:22,192 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Reconnect due to socket error: java.nio.channels.ClosedChannelException
2018-10-16 15:20:24,258 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Reconnect due to socket error: java.nio.channels.ClosedChannelException
2018-10-16 15:20:26,266 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Reconnect due to socket error: java.nio.channels.ClosedChannelException
2018-10-16 15:20:28,304 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Reconnect due to socket error: java.nio.channels.ClosedChannelException
2018-10-16 15:20:30,314 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Reconnect due to socket error: java.nio.channels.ClosedChannelException
2018-10-16 15:20:32,336 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Reconnect due to socket error: java.nio.channels.ClosedChannelException
2018-10-16 15:20:34,345 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Reconnect due to socket error: java.nio.channels.ClosedChannelException
2018-10-16 15:20:36,351 (main) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)] Reconnect due to socket error: java.nio.channels.ClosedChannelException
Exception in thread "main" org.apache.spark.SparkException: Trying to get the consumption offset of the partition failed....
at news.KafkaManager.getConsumeOffset(KafkaManager.scala:72)
at news.KafkaManager.createDirectStream(KafkaManager.scala:168)
at news.Runs$.createStreamingContext(Runs.scala:45)
at news.Runs$$anonfun$1.apply(Runs.scala:30)
at news.Runs$$anonfun$1.apply(Runs.scala:30)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.streaming.StreamingContext$.getOrCreate(StreamingContext.scala:829)
at news.Runs$.main(Runs.scala:30)
at news.Runs.main(Runs.scala)

代码如下：
val topicAndPartitions: Set[TopicAndPartition] = getMetadataForTopicAndPartition()

//尝试获取每个分区最大一条消息的偏移量
val errOrConsumeOffsets = kafkaCluster.getConsumerOffsets(kafkaParams(ParameterContants.GROUP_ID), topicAndPartitions)

if (errOrConsumeOffsets.isLeft) {
  throw new SparkException("Trying to get the consumption offset of the partition failed....")
}
val consumeOffsetsMap: Map[TopicAndPartition, Long] = errOrConsumeOffsets.right.get
consumeOffsetsMap

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

SparkStreaming与Kafka，SparkStreaming接收Kafka数据的两种方式
2019-07-08 10:03

爱是与世界平行的博客 SparkStreaming接收Kafka数据的两种方式一、SparkStreaming + Kafka Receiver模式二、SparkStreaming + Kafka Direct模式三、Direct模式与Receiver模式比较四、SparkStreaming+Kafka维护消费者offset 一、Spark...
SparkStreaming读取kafka数据的两种方式（receive与direct）对比
2020-07-01 10:17

billows9297的博客总之，通过新方法创建出来的dstream的rddpartition和kafka的topic的partition是一一对应的，通过低阶API直接从kafka的topic消费消息，，默认将偏移量保存在kafka内部。对比 Receive Receive是使用的高级API，...
Spark总结（SparkCore,SparkSQL,SparkStreaming）
2021-02-26 21:34

ambitfly的博客 SparkCore ...1.MR是基于磁盘迭代处理数据，Spark是基于内存处理数据 2.Spark有DAG有向无环图做优化 3.MR是细粒度资源申请，application执行慢,spark是粗粒度资源申请，application执行快 4.MR没有SQL,
Spark Streaming和Kafka整合保证数据零丢失
2018-11-13 19:48

BigDataer_DK的博客 Spark Streaming和Kafka整合保证数据零丢失当我们正确地部署好Spark Streaming，我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性，你需要满足以下几个先决条件： 1、输入的数据来自...
kafka面试题及问题汇总
2019-02-28 18:49

四月天03的博客 1、kafka的数据存在内存还是磁盘 Kafka最核心的思想是使用磁盘，而不是使用内存，可能所有人都会认为，内存的速度一定比磁盘快，我也不例外。在看了Kafka的设计思想，查阅了相应资料再加上自己的测试后，发现磁盘的...
SparkStreaming底层原理讲解
2019-05-30 21:37

数据小二的博客 Spark Streaming 是流式处理框架，是Spark ApI的扩展，支持可扩展、高吞吐量、容错的实时数据流处理。实时数据的来源：kafka,flume,Twitter,ZeroMQ或者TCP Socket,并且可以使用高级功能的复杂算子，来处理流的数据...
大数据11_Kafka知识以及kafka与sparkstreaming结合
2018-11-03 20:57

小飞猪666的博客特点是生产者消费者模式，先进先出（FIFO）保证顺序，自己不丢数据，默认每隔7天清理数据。消息列队常见场景：系统之间解耦合、峰值压力缓冲、异步通信。 2. kafka生产消息、存储消息、消费消息 1)Kafka...
Spark 从 0 到 1 学习(9) —— Spark Streaming + Kafka
2020-10-13 16:55

dwjf321的博客文章目录1. Kafka中的数据消费语义介绍2. Kafka 的消费模式2.1 SparkStreaming消费kafka整合介绍基于0.8版本整合方式2.1.1 Receiver-based ...2.2.2 手动维护 offset，偏移量存入 Redis2.3 SparkStreaming与Kafka-0
消息队列选型方案
2022-07-04 20:49

我叫小八的博客消费者（Consumer）：支持 PUSH 和 PULL 两种消费模式，支持集群消费和广播消费集群消费：该模式下一个消费者集群共同消费一个主题的多个队列，一个队列只会被一个消费者消费，如果某个消费者挂掉，分组内其它消费...
2021-02-25 大数据课程笔记 day36
2021-02-24 18:50

Rich Dad的博客 @R星校长 Spark第八天【SparkStreaming内容】 ...特点是生产者消费者模式，先进先出（FIFO）保证顺序，自己不丢数据，默认每隔7天清理数据。消息列队常见场景：系统之间解耦合、峰值压力缓冲、异步.
面试总结（总）
2022-07-18 13:24

谁是黄黄的博客即在数组id中查不到我们当前的DB_TRX_ID,也就是说我们的数据已经commit了如果这个值大于当前系统中最大的事务 ID，说明这行数据是我们在开启事务之后，还没有提交的时候，有另外一个会话也开启了事务，并且修改了...
Spark Streaming详解
2019-10-31 09:20

SusurHe的博客内容 sparkStreaming简介 spark Streaming和Storm区别 ...SparkStreaming是一种流式处理框架，是SparkAPI的扩展，支持可扩展、高吞吐、容错的***准实时***数据处理，实时数据的来源可以事： Kafka、F...
Spark Streaming的优化之路—从Receiver到Direct模式
2020-06-27 23:50

风筝Lee的博客 Spark Streaming是一种分布式的大数据实时计算框架，他提供了动态的，高吞吐量的，可容错的流式数据处理，不仅可以实现用户行为分析，还能在金融、舆情分析、网络监控等方面发挥作用。个推开发者服务——消息推送...
Kafka之三：Kafka集群工作流程
2019-05-21 12:40

落落free的博客 Kafka之三：Kafka集群工作流程文章目录Kafka之三：Kafka集群工作流程一、... Zookeeper存储结构二、Kafka消费过程分析1. 高级API2. 低级API3. 消费组4. 消费方式5. 消费者组案例一、工作流程分析 1. prod...
Spark day06
2019-04-02 09:30

weixin_30546933的博客 SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流...
kafka介绍以及集群搭建
2019-01-18 16:29

nihao_pcm的博客特点是生产者消费者模式，先进先出（FIFO）保证顺序，自己不丢数据，默认每隔7天清理数据。消息列队常见场景：系统之间解耦合、峰值压力缓冲、异步通信。 kafka生产消息、存储消息、消费消息 Kafka架构是由...
Spark对Kafka两种连接方式的对比——Receiver和Direct
2019-11-21 19:00

乔治大哥的博客在知乎 Flink 取代 Spark Streaming 的实战之路中，提到 ...与所有接收器一样，从Kafka通过Receiver接收的数据存储在Spark Executor的内存中，然后由Spark Streaming启动的job来处理数据。然而默认配置...
SparkStreaming2.2 + Kafka0.8
2020-01-01 21:02

BF-LoneSilverWind的博客 (不管需不需要都会传输数据) receiver模式原理图 receiver模式流程: 在SparkStreaming程序运行起来后，Executor中会有receiver task接收kafka推送过来的数据。数据会被持久化，默认级别为MEMORY_AND_DISK_SER_2,...
Spark Streaming
2019-04-20 09:11

VI7的博客 SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的准实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理...
4、spark streaming+kafka
2019-09-27 18:23

weixin_30830327的博客一、Receiver模式1、 receiver模式原理图在SparkStreaming程序运行起来后，Executor中会有receiver tasks接收kafka推送过来的数据。数据会被持久化，默认级别为MEMORY_AND_DISK_SER_2,这个级别也可以修改。receiver...
没有解决我的问题, 去提问

悬赏问题

¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 有没有帮写代码做实验仿真的
¥15 報錯：Person is not mapped，如何解決？
¥30 vmware exsi重置后登不上
¥15 c++头文件不能识别CDialog
¥15 Excel发现不可读取的内容
¥15 关于#stm32#的问题：CANOpen的PDO同步传输问题
¥20 yolov5自定义Prune报错，如何解决？
¥15 电磁场的matlab仿真

码龄粉丝数原力等级 --

driect自定义偏移量消费数据，但是获取zookeeper上的偏移量的时候出了问题。。

0条回答

悬赏问题