在directstream中，用python，如何实现手动将offset更新到zk

在sparkstreaming中，使用kafka的directstream接口获取数据时，不会将offset更新到zookeeper，这样会导致job重启后只能从最新的offset读取，从而造成数据丢失，为了避免这个情况，官网提示说可以自己实现将offset手动更新到zookeeper，我使用的是python，但是spark的python接口中并无java和scala中的kafkacluster这个类，不知道自己手动该如何实现，网上有很多scala和java实现这个操作的代码，求高手给一个python版本的，在线等，跪求！！！！小弟编程能力有限，跪求高手耐心解答，抱拳。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2016-11-04 04:28
关注
http://bbs.csdn.net/topics/392041991

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Kafka+Spark Streaming管理offset的两种方法
2021-07-01 01:36

码农老K的博客为了应对可能出现的引起Streaming程序崩溃的异常情况，我们一般都需要手动管理好Kafka的offset，而不是让它自动提交，即需要将enable.auto.commit设为false。只有管理好offset，才能使整个流式系统最大限度地接近...
Spark Streaming中读取数据的两种方式：基于Receiver的方法，基于Direct方法
2019-08-11 20:27

无名一小卒的博客 Receiver是使用Kafka高级消费者API实现的。与所有接收器一样，从Kafka通过Receiver接收的数据存储在Spark执行器中，然后由Spark Streaming启动的作业处理数据。但是，在默认配置下，此方法可能会在失败时丢失数据...
SparkStreaming整合Kafka-0.8的官方文档要点翻译
2018-08-02 12:01

中琦2513的博客跟以前创建多个并行的KafkaStream来结合处理相对比，DirectStream的方式中，SparkStreaming应用程序将创建和Kafka中这个Topic的parititons的数量一样的RDD，这些消费者讲并行的进行所有数据的读取。所以这种方式就是...
【十五】Spark Streaming整合Kafka使用Direct方式（使用Scala语言）
2018-07-19 03:25

jy02268879的博客 Kafka提供了新的consumer api 在0.8版本和0.10版本之间。0.8的集成是兼容0.9和0.10的。但是0.10的集成不兼容以前的版本。这里使用的集成是spark-streaming-kafka-0-8。官方文档配置SparkStreaming接收从kafka...
SparkStreaming与Kafka整合
2023-12-28 12:33

Guff_hys的博客消费者断线会自动根据上一次记录在 zookeeper中的offset去接着获取数据；高级缺点：不能自行控制 offset；不能细化控制如分区、副本、zk 等）。Receiver从kafka接收数据，存储在Executor中，Spark Streaming 定时...
SparkStreaming与Kafka，SparkStreaming接收Kafka数据的两种方式
2019-07-08 10:03

爱是与世界平行的博客 SparkStreaming接收Kafka数据的两种方式一、SparkStreaming + Kafka Receiver模式二、SparkStreaming + Kafka Direct模式三、Direct模式与Receiver模式比较四、SparkStreaming+Kafka维护消费者offset 一、Spark...
29 SparkStreaming
2020-08-06 17:50

Walter_bigdata的博客 /** * 定义一个方法，实现将历史数据全部保存下来 * @param inputSum Seq[Int] 将输入数据都累加 * @param resultSum 保存历史的数据 * @return */ def updateFunc(inputSum:Seq[Int], resultSum:Option[Int]) :...
Spark Streaming + Kafka Integration Guide (Kafka broker version 0.8.2.1 or higher)
2019-06-12 10:01

xiaozhu_you的博客 Spark Streaming + Kafka Integration Guide (Kafka broker version 0.8.2.1 or higher) Note: Kafka 0.8 support is deprecated as of Spark 2.3.0. ...有两种方法可以做到这一点——使用接收器的旧方法和Kafk...
大数据面试题——Spark篇
2019-04-18 14:11

提灯寻梦在南国的博客它都是将 mapper（Spark 里是 ShuffleMapTask）的输出进行 partition，不同的 partition 送到不同的 reducer（Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask，也可能是 ResultTask...
sparkstreaming和Kafka的结合（两种不同kafka版本的区别）
2019-03-29 13:02

xuxu1116的博客公司原来开发使用的是Kafka0.8版本的，虽然很好用，但是看了一下kafka官网的0.10版本更新了好多的特性，功能变得更强了。以后考虑换成0.10版本的，因此特意研究了一下两个版本的区别和使用方法。先贴出两个版本的...
kafka direct方式获取数据解析
2019-01-09 16:25

weixin_33743248的博客 2019独角兽企业重金招聘Python工程师标准>>> ...
大数据面试系列之——Spark
2020-02-17 13:31

潜心_守道的博客 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。方便调试，本地模式分三类 local：只启动一个executor local[k]: 启动k个executor local：启动跟cpu数目相同的 executor 2.s...
Spark Streaming 和kafka 集成指导（kafka 0.8.2.1 或以上版本）
2018-01-10 10:28

街北槐花的博客 1、老的方法 -使用Receivers 和kafka的高级API 2、新的方法（ Spark 1.3 开始引入）-不适用Receivers。这两个方式拥有不同的编程模型，性能特征和语义保证，为了获得更多细节，继续往下读。对于目前的版本的spark。...
26 ，kafka - spark 集成：各种数据源，
2019-08-23 20:10

孙砚秋的博客 1 ，kafkaStreaming 架构模型： 2 ，代码思路： 3 ，spark 两种 API ：高级 API ：有可能丢失数据。...从 zk 读取 offset 。创建 kafka 消费者，消费数据。 5 ，sparkStreaming 的各种数据源：文件数据...
SparkStreaming + Kafka集成指南（Kafka版本要求0.8.2.1以上）
2018-05-15 21:31

V_Gbird的博客目前有两种方式：较老的方式是通过使用Receivers和Kafka的高阶API，新的方式（从spark1.3版本开始）不在使用Receivers。这是两种不同的编程模型、有不同的性能特征和不同的语义，更多细节求阅...
--- Spark学习（拾贰）- Spark Streaming整合Kafka
2018-12-07 17:17

-无妄-的博客效率:在receive方法中实现零数据丢失需要将数据存储在WAL机制的日志中，这样可以进一步复制数据。这实际上是低效的，因为数据被有效地复制了两次——一次由Kafka复制，另一次由Write Ahead日志复制。direct方法消除...
「官文译」Spark Streaming2.1.1 + Kafka集成指南（Kafka代理版本0.8.2.1或更高版本）
2017-07-11 14:55

图特摩斯科技的博客有两种方法 - 使用Receivers和Kafka的高级API的旧方法，以及一种新方法（在Spark 1.3中引入），而不使用Receivers。他们有不同的编程模型，性能特征和语义保证，所以阅读更多的细节。两种方法都被认为是当前版本的...
《Spark实时词频统计处理系统》
2019-06-28 23:52

碣石观海的博客 | Spark 流式作业作为消费者，订阅Kafka消息，使用低阶API直接读取数据流的方式获取数据（offsets用ZK保存） | 创建直接数据流 DirectStream 前需要的准备： —| 1）更新消费者在Kafka主题分区中的偏移量...
没有解决我的问题, 去提问

悬赏问题

¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？

在directstream中，用python，如何实现手动将offset更新到zk

1条回答 默认 最新

悬赏问题

1条回答默认最新