求教SparkStreaming 读取数据库表如mysql、cassandra等，每个batch是整张表吗？

需要做一个实时监控统计的系统，准备使用cassandra作为数据库，因为数据提交不带有最终统计的部分信息，需要将kafka dstream和已经存在cassandra内的部分表在spark中做关联。
打算采用sparkstreaming实时消费信息，同时读取cassandra表（增量变动）做关联。如果streaming读取cassandra的没个batch不是整张表会导致join失败吧

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
xx937746631 2018-12-23 07:36
关注
batch是按时间分的，最终其实还是RDD

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Cassandra数据库怎么多表关联查询？数据库
2022-04-18 16:31

回答 1 已采纳官方建议如下（简单的来说就是你最好把表设计成无关联的宽表，不支持join）： Design Differences Between RDBMS and Cassandra No joinsYou ca
使用多个主机ip迁移cassandra的库实现
2018-10-04 08:29

回答 1 已采纳 The ALTER should be realised / replicated across the cluster. Migrate uses the highest level of co
Cassandra PHP - 检查给定的timeuuid字符串是否是有效的timeuuid php
2017-04-25 10:22

回答 1 已采纳 Check the version of the uuid using version() method. if 1 then it's timeuuid. https://datastax.g
大数据：Apache技术和大数据实践（Hadoop，Spark，Scala，Hbase，Cassandra ...）
2021-02-03 11:32

大数据：Apache技术和大数据实践（Hadoop，Spark，Scala，Hbase，Cassandra ...）
如何用GO语言创建持久的cassandra连接？
2016-08-16 17:54

回答 1 已采纳 var session *gocql.Session func getCluster() *gocql.ClusterConfig { cluster := gocql.NewClus
不断重新连接到Cassandra
2019-05-06 09:07

回答 1 已采纳 Special thanks to @Jim Wartnick for this. I just tried turning Cassandra off on my local machine a
如何使用duoshuo的PHP客户端库定义嵌套在UDT中的Cassandra CollectionMap？ php
2016-03-17 17:59

回答 1 已采纳 Use "definition" instead of "value". I tried this before but apparently I was doing something else
SparkExamples:学习如何将 Spark 与其他大数据工具（如 ES、Cassandra、Kafka 等）集成的小 Spark 示例。
2021-06-11 03:41

火花示例学习如何将 Spark 与其他大数据工具（如 ES、Cassandra、Kafka...
从Mysql迁移到Cassandra mysql php
2011-04-16 11:47

回答 1 已采纳 Auto-increments are not suitable for a robust distributed system. You can only assign a unique ID
Golang gocql无法连接到Cassandra（使用Docker） database docker
2018-09-10 22:11

回答 1 已采纳 Use the service name cassandra00 for the hostname per the docker-compose documentation https://doc
如何使用gocql在Cassandra中创建键空间
2018-03-12 21:12

回答 2 已采纳 I dont think there is any specific command in the library, but they create keyspaces as part of th
数据库MySQL详解
2018-07-24 20:03

砖业洋__的博客全网最详细MySQL教程，2023持续更新中
如何修复警告：/etc/php/7.1/mods-available下不存在模块cassandra ini文件 php
2019-02-19 09:53

回答 1 已采纳 I re-tried and was able to resolve it. one trick here: to avoid error (cannot open /include/ca
大数据Spark框架概述
2021-05-04 16:51

赵广陆的博客目录1 Spark 是什么2 Spark 四大特点2.1 速度快2.2 易于使用2.3 通用性强2.4 运行方式3 Spark 框架模块3.1 Spark Core3.2 Spark SQL3.3 Spark Streaming3.4 Spark MLlib3.5 Spark GraphX3.6 Structured Streaming4 ...
关系型数据库 OR NoSQL： MySQL vs MongoDB、Cassandra、Redis
2023-09-17 01:57

禅与计算机程序设计艺术的博客但是随着云计算、移动互联网、容器技术等新兴技术的普及，NoSQL的火爆已经迅速席卷着行业，如MongoDB、Cassandra、Redis等开源分布式数据库正在逐渐取代传统的关系型数据库MySQL。这篇文章将通过对两者各自优缺点、...
没有解决我的问题, 去提问

悬赏问题

¥20 matlab计算中误差
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料
¥15 使用R语言marginaleffects包进行边际效应图绘制
¥20 usb设备兼容性问题
¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊