oncewind
昨日重現
采纳率0%
2018-09-17 14:20 阅读 3.4k

spark读取kafka数据, 缓存当天数据

5

spark stream从kafka读取数据,10秒间隔;需要缓存当天数据用于业务分析。
思路1:定义static rdd用于union每次接收到的rdd;用window窗口(窗口长1小时,滑动步长20分钟);union之后checkpoint。
但是发现在利用static rdd做业务分析的时候,应该是因为磁盘io,所以执行时间太长。
思路2:一样定义static rdd, context调用remember(24小时)保留数据24小时(数据缓存在哪里了,暂时不清楚,汗);但是在业务分析时,发现static rdd的count结果为0

求教怎么缓存一段时间的rdd
数据放executor内存或分布放个worker都可以,一天的数据量大概在100g,过滤后再5g,机器内存256g

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享

1条回答 默认 最新

相关推荐