lf.D 2018-12-23 10:54 采纳率: 0%
浏览 1264

求教SparkStreaming 读取数据库表如mysql、cassandra等,每个batch是整张表吗?

需要做一个实时监控统计的系统,准备使用cassandra作为数据库,因为数据提交不带有最终统计的部分信息,需要将kafka dstream和已经存在cassandra内的部分表在spark中做关联。
打算采用sparkstreaming实时消费信息,同时读取cassandra表(增量变动)做关联。如果streaming读取cassandra的没个batch不是整张表会导致join失败吧

  • 写回答

1条回答 默认 最新

  • xx937746631 2018-12-23 07:36
    关注

    batch是按时间分的,最终其实还是RDD

    评论

报告相同问题?

悬赏问题

  • ¥15 R语言Rstudio突然无法启动
  • ¥15 关于#matlab#的问题:提取2个图像的变量作为另外一个图像像元的移动量,计算新的位置创建新的图像并提取第二个图像的变量到新的图像
  • ¥15 改算法,照着压缩包里边,参考其他代码封装的格式 写到main函数里
  • ¥15 用windows做服务的同志有吗
  • ¥60 求一个简单的网页(标签-安全|关键词-上传)
  • ¥35 lstm时间序列共享单车预测,loss值优化,参数优化算法
  • ¥15 Python中的request,如何使用ssr节点,通过代理requests网页。本人在泰国,需要用大陆ip才能玩网页游戏,合法合规。
  • ¥100 为什么这个恒流源电路不能恒流?
  • ¥15 有偿求跨组件数据流路径图
  • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值