spark读取kafka数据，缓存当天数据

spark stream从kafka读取数据，10秒间隔；需要缓存当天数据用于业务分析。
思路1：定义static rdd用于union每次接收到的rdd；用window窗口（窗口长1小时，滑动步长20分钟）；union之后checkpoint。
但是发现在利用static rdd做业务分析的时候，应该是因为磁盘io，所以执行时间太长。
思路2：一样定义static rdd， context调用remember（24小时）保留数据24小时（数据缓存在哪里了，暂时不清楚，汗）；但是在业务分析时，发现static rdd的count结果为0

求教怎么缓存一段时间的rdd
数据放executor内存或分布放个worker都可以，一天的数据量大概在100g，过滤后再5g，机器内存256g

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2018-09-17 15:47
关注
https://blog.csdn.net/liguangzhu620/article/details/78917558

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

flinksql读取kafka数据报错 flink kafka
2022-07-13 20:33

回答 3 已采纳 restclient异常，先看看taskmanager和jobmanager是否正常，然后你可以在jobmanager的节点上访问webUI查看job状态，又或者直接查看宿主机上的日志排查问题
flink消费kafka数据延迟 flink postgresql scala 有问必答
2022-01-28 09:47

回答 1 已采纳那最后写入到库了吗，如果写不进去，上游kafka肯定会延迟越来越大的，可以在sink里多打印下错误，或者设置写入超时时间，问题应该在写入
kafka拉取不到数据 java kafka 分布式有问必答
2022-02-16 19:32

回答 4 已采纳重新开一个topic，然后先启动consumer，再启动producer，再发消息，你这个可能是consumer已经在broker里有了自己的offset，就会读不到之前producer发送到brok
Spark读取Kafka两种方式的详细说明
2019-11-04 10:46

我在北国不背锅的博客 Spark读取kafka的两种方式 spark streaming提供了两种获取方式，一种是同storm一样，实时读取缓存到内存中;另一种是定时批量读取。这两种方式分别是： Receiver-base Direct Receiver-base： Spark官方最先提供了...
spark structured steaming与kafka集成offset管理方式 kafka spark
2023-01-31 14:43

回答 2 已采纳 Spark Structured Streaming 集成 Kafka 的 offset 管理方式有如下几种：利用 Spark checkpoint 文件提交 offset 给 Kafka常用的方案
不使用zk实现双机clickhouse、kafka数据同步 kafka zookeeper
2023-02-02 16:54

回答 4 已采纳 ''该回答引用ChatGPT''如对你的问题有帮助，请点击右侧采纳即可！没有使用ZooKeeper的话，一种可行的方案是利用ClickHouse的复制功能实现双机数据同步。ClickHouse的复制功
kafka实时传输数据，保证实时性 java kafka 有问必答
2021-07-22 08:54

回答 4 已采纳用@Scheduledhttps://blog.csdn.net/limingcai168/article/details/103394041
SparkStreaming读取kafka数据（Scala）
2019-12-06 11:59

Myliox的博客首先说明环境: ...kafka 2.4.0 2.11.12 2.2.1 废话不多说直接上代码 #首先是依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11&l...
kafka如何获取到发送失败的数据 java kafka 有问必答
2021-07-27 10:36

回答 1 已采纳 kafka调用send方法发送数据后会返回一个ListenableFuture 这个ListenableFuture可以添加callback进行监听d
这个kafka在Sparkstreaming生产者出问题 kafka spark
2023-01-23 19:40

回答 2 已采纳看起来你好像少这个jar ： kafka-clients，查找一下项目里引用了没有另外就是需要你check一下你代码里是否使用了 StringDeserializer 代替了 StringSer
kafka取不到监听数据 jar 有问必答
2021-04-20 10:49

回答 3 已采纳 https://gewu.pcwanli.com/front/article/10619.html
SparkStreaming读取kafka数据的方式
2019-04-18 16:06

wx_Jum的博客 SparkStreaming读取kafka数据的方式官网：http://spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html#approach-2-direct-approach-no-receivers方式一：Approach 1: Receiver-based Approach（基于...
spring+kafka+hive实现动作提取到数据仓库 hive kafka spring
2022-07-13 14:53

回答 1 已采纳尚硅谷的电商案例里面有介绍
spark向kafka写入数据
2021-06-15 14:41

大数据翻身的博客 spark向kafka写入数据前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka...
Spark Streaming + Kafka构建实时数据流
2023-05-25 15:56

茶树油酸梅酱的博客这个是老师根据某个比赛修改了赛题给大伙布置的任务，数据在上面方式可见，想着用java写实在是太麻烦了，改用了spark读取并模拟数据的实时性上传到Kafka，然后用sparkStreaming接收并处理数据。
没有解决我的问题, 去提问

悬赏问题

¥30 求安卓设备利用一个typeC接口，同时实现向pc一边投屏一边上传数据的解决方案。
¥15 SQL Server analysis services 服务启动失败
¥15 用html创建一个个人网页，提供网页页面
¥20 java项目连接SqlServer数据库报错
¥15 基于面向对象的图书馆借阅管理系统
¥15 opencv图像处理，需要四个处理结果图
¥20 centos linux 7.9安装php8.2.18不支持mysqli模块的问题
¥15 stata空间计量LM检验
¥15 NAO机器人说出txt文本内容
¥15 关于k8s node节点被释放后如何驱逐节点并添加新节点

spark读取kafka数据， 缓存当天数据

1条回答 默认 最新

悬赏问题

spark读取kafka数据，缓存当天数据

1条回答默认最新