spark structured steaming与kafka集成offset管理方式

spark structured steaming与kafka集成，管理offset的方式有哪几种呢？目的是从故障中恢复流应用程序，比如重启consumer。
我知道的是：1. 利用spark checkpoint 文件，2. 提交offset给kafka。
还有别的方法吗？哪种是常用的方案呢？

期待回复，非常感谢！！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
m0_54204465 2023-01-31 15:26
关注
Spark Structured Streaming 集成 Kafka 的 offset 管理方式有如下几种：

利用 Spark checkpoint 文件
提交 offset 给 Kafka
常用的方案是使用 Spark checkpoint，因为它可以提供更好的故障恢复性和高可用性，同时也不依赖于 Kafka 的 offset 管理。但是，提交 offset 给 Kafka 也是一个不错的选择，特别是在简单的场景中。在Spark Structured Streaming与Kafka集成时，这两种方法是比较常见的offset管理方法。有时也会通过将offset存储在外部数据存储中（如HDFS，RDBMS）来实现offset管理，以将offset存储在MySQL数据库为例：

# define offsetRanges variable val offsetRanges = Array( // topic, partition, inclusive starting offset, exclusive ending offset TopicAndPartition("topicA", 0, 0, 100), TopicAndPartition("topicA", 1, 0, 100), TopicAndPartition("topicB", 0, 0, 100), TopicAndPartition("topicB", 1, 0, 100) ) # Update offsets in database offsetRanges.foreach { case (topicAndPartition, offset) => val sql = s"INSERT INTO offsets (topic, partition, offset) VALUES ('${topicAndPartition.topic}', ${topicAndPartition.partition}, $offset) ON DUPLICATE KEY UPDATE offset = $offset" conn.createStatement().execute(sql) } # Fetch current offsets from database val currentOffsets = offsetRanges.map { topicAndPartition => val sql = s"SELECT offset FROM offsets WHERE topic = '${topicAndPartition.topic}' AND partition = ${topicAndPartition.partition}" val resultSet = conn.createStatement().executeQuery(sql) resultSet.next() val offset = resultSet.getLong("offset") topicAndPartition -> offset }

但这不太常见。
下面是一个使用 Apache Spark Structured Streaming 集成 Apache Kafka 的简单例子：

val df = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("subscribe", "topic1") .load() val query = df .writeStream .format("console") .outputMode("append") .start()

在这个例子中，Spark 从 Kafka 的 topic1 读取数据并写入到控制台。对于 offset 管理，默认情况下 Spark 使用 checkpoint 文件进行管理。可以使用 .option("checkpointLocation", "path/to/checkpoint/dir") 来设置 checkpoint 位置。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

spark structured steaming与kafka集成offset管理方式 kafka spark
2023-01-31 14:43

回答 2 已采纳 Spark Structured Streaming 集成 Kafka 的 offset 管理方式有如下几种：利用 Spark checkpoint 文件提交 offset 给 Kafka常用的方案
spark和hadoop hadoop spark 大数据
2022-12-23 16:57

回答 2 已采纳集群还在启动吧，还是在安全模式，无法创建文件夹，稍等一会儿集群完全启动成功后就可以了。
Java编写flatMap参数问题 java spark
2022-07-05 21:33

回答 2 已采纳看着像是强制类型转换。去掉的话，错误信息是不是与类型有关
Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较优劣势
2019-03-07 21:04

小鹅鹅的博客 Spark Streaming(DStreaming) VS ...这篇博客主要记录Spark Streaming(DStreaming) 与 Spark Structured Streaming 之间的差别与优劣势。 Apache Spark 在 2016 年的时候启动了 Structured Streaming 项目，一个...
Zap堆栈跟踪与Google Cloud上的错误消息
2017-09-18 15:29

回答 1 已采纳 zap by default puts the message under the msg key, the stacktrace under stacktrace, and prints log
PHP / HTML结构方式 html php
2016-01-15 10:04

回答 4 已采纳 You can use require_once,require,include and include_once Sample form addForm.php <form acti
将XML文件与数组进行比较 php xml
2015-08-31 04:19

回答 2 已采纳 As you are playing with SimpleXML, you may need to type cast your ID's when adding them to the arr
Streaming消费Kafka数据,存入HBase(详细案例,附HBase工具类)
2020-10-14 15:41

吾发长存的博客 1.自定义的Kafka生产者实时向Kafka发送模拟数据; 2.Streaming使用Direct模式拉取Kafka中数据,经处理后存入HBase. 一、依赖文件(注意HBase版本对应) <!-- 指定仓库位置，依次为aliyun、cloudera和jboss仓库 --&gt...
pyinstaller打包出现报错lib not found opencv python
2023-03-10 21:39

回答 5 已采纳参考GPT的回答和自己的思路，这个报错提示是因为打包程序时缺失了一些动态链接库（DLL），通常这些DLL是第三方库的依赖项。下面是解决此问题的步骤： 1.确认依赖项：通过报错信息查找缺失的DLL文件。
java搭建hibernate框架报错 hibernate java
2023-01-23 18:00

回答 3 已采纳首先，确认数据库正确连接:检查数据库能连接上吗，用数据库连接工具能打开看到数据库表吗。其次，你用的jdk版本是多少， JDK 8 中有关反射相关的功能自从 JDK 9 开始就已经被限制了，为了兼容原先
在c++中使用opencv 4.5.5+cuda 11.5+cudnn 8.3.3时遇到:No CUDA support的问题。 c++ dnn opencv
2022-12-21 16:46

回答 3 已采纳 cmake的时候你要指定CUDA_ARCH_PTX or CUDA_ARCH_BIN，3060的cuda算力8.6，你需要设置CUDA_ARCH_BIN或者显卡架构为安培架构，命令行里面加上这两个参数
SparkStreaming消费不到Kafka的数据
2019-12-26 17:12

Rone-X的博客我这边遇到的问题是由于手动维护了offset，指定了分组我新增了一个Topic，新创建了一个Consumer。但是保存Redis里面的分组还是原来的test 所以消费不到啊！！！！！ ...
tbb is not allowed since its linker language 开发语言
2021-05-08 11:12

回答 4 已采纳 Has solved ! inference :https://blog.csdn.net/wd1603926823/article/details/116535175
DataFlow编程模型与Spark Structured streaming
2019-07-03 17:26

天地不仁以万物为刍狗的博客而在Dataflow的模型设计中，用户能更加细化的定义每个环节的步骤和设置，所以没有把一些逻辑替用户实现，更多的是以模块化的方式，留给用户去自己选择，而Structured steaming则把很多事情包办了，定制的余地较小，...
【计算引擎】SparkStreaming、StructuredStreaming、Flink、Storm 对比
2020-04-04 21:04

孟知之的博客数据可以从很多来源（如 Kafka、Flume、Kinesis 、HDFS、Twitter等）中提取，并且可以通过很多函数（能够和Spark Core、Spark SQL来进行混合编）来处理这些数据，处理完后的数据可以直接存入数据库或者 Dashboard...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月31日

悬赏问题

¥15 任务A：大数据平台搭建（容器环境）怎么做呢？
¥15 r语言神经网络自变量重要性分析
¥15 基于双目测规则物体尺寸
¥15 wegame打不开英雄联盟
¥15 公司的电脑，win10系统自带远程协助，访问家里个人电脑，提示出现内部错误，各种常规的设置都已经尝试，感觉公司对此功能进行了限制（我们是集团公司）
¥15 救！ENVI5.6深度学习初始化模型报错怎么办？
¥30 eclipse开启服务后，网页无法打开
¥30 雷达辐射源信号参考模型
¥15 html+css+js如何实现这样子的效果？
¥15 STM32单片机自主设计

spark structured steaming与kafka集成offset管理方式

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新