求教SparkStreaming 读取数据库表如mysql、cassandra等，每个batch是整张表吗？

需要做一个实时监控统计的系统，准备使用cassandra作为数据库，因为数据提交不带有最终统计的部分信息，需要将kafka dstream和已经存在cassandra内的部分表在spark中做关联。
打算采用sparkstreaming实时消费信息，同时读取cassandra表（增量变动）做关联。如果streaming读取cassandra的没个batch不是整张表会导致join失败吧

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
xx937746631 2018-12-23 07:36
关注
batch是按时间分的，最终其实还是RDD

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Cassandra数据库怎么多表关联查询？数据库
2022-04-18 16:31

回答 1 已采纳官方建议如下（简单的来说就是你最好把表设计成无关联的宽表，不支持join）： Design Differences Between RDBMS and Cassandra No joinsYou ca
使用多个主机ip迁移cassandra的库实现
2018-10-04 08:29

回答 1 已采纳 The ALTER should be realised / replicated across the cluster. Migrate uses the highest level of co
Cassandra PHP - 检查给定的timeuuid字符串是否是有效的timeuuid php
2017-04-25 10:22

回答 1 已采纳 Check the version of the uuid using version() method. if 1 then it's timeuuid. https://datastax.g
大数据：Apache技术和大数据实践（Hadoop，Spark，Scala，Hbase，Cassandra ...）
2021-02-03 11:32

大数据：Apache技术和大数据实践（Hadoop，Spark，Scala，Hbase，Cassandra ...）
如何用GO语言创建持久的cassandra连接？
2016-08-16 17:54

回答 1 已采纳 var session *gocql.Session func getCluster() *gocql.ClusterConfig { cluster := gocql.NewClus
不断重新连接到Cassandra
2019-05-06 09:07

回答 1 已采纳 Special thanks to @Jim Wartnick for this. I just tried turning Cassandra off on my local machine a
如何使用duoshuo的PHP客户端库定义嵌套在UDT中的Cassandra CollectionMap？ php
2016-03-17 17:59

回答 1 已采纳 Use "definition" instead of "value". I tried this before but apparently I was doing something else
SparkExamples:学习如何将 Spark 与其他大数据工具（如 ES、Cassandra、Kafka 等）集成的小 Spark 示例。
2021-06-11 03:41

火花示例学习如何将 Spark 与其他大数据工具（如 ES、Cassandra、Kafka...
从Mysql迁移到Cassandra mysql php
2011-04-16 11:47

回答 1 已采纳 Auto-increments are not suitable for a robust distributed system. You can only assign a unique ID
Golang gocql无法连接到Cassandra（使用Docker） database docker
2018-09-10 22:11

回答 1 已采纳 Use the service name cassandra00 for the hostname per the docker-compose documentation https://doc
如何使用gocql在Cassandra中创建键空间
2018-03-12 21:12

回答 2 已采纳 I dont think there is any specific command in the library, but they create keyspaces as part of th
数据库MySQL详解
2018-07-24 20:03

砖业洋__的博客全网最详细MySQL教程，2023持续更新中
如何修复警告：/etc/php/7.1/mods-available下不存在模块cassandra ini文件 php
2019-02-19 09:53

回答 1 已采纳 I re-tried and was able to resolve it. one trick here: to avoid error (cannot open /include/ca
大数据Spark框架概述
2021-05-04 16:51

赵广陆的博客目录1 Spark 是什么2 Spark 四大特点2.1 速度快2.2 易于使用2.3 通用性强2.4 运行方式3 Spark 框架模块3.1 Spark Core3.2 Spark SQL3.3 Spark Streaming3.4 Spark MLlib3.5 Spark GraphX3.6 Structured Streaming4 ...
关系型数据库 OR NoSQL： MySQL vs MongoDB、Cassandra、Redis
2023-09-17 01:57

禅与计算机程序设计艺术的博客但是随着云计算、移动互联网、容器技术等新兴技术的普及，NoSQL的火爆已经迅速席卷着行业，如MongoDB、Cassandra、Redis等开源分布式数据库正在逐渐取代传统的关系型数据库MySQL。这篇文章将通过对两者各自优缺点、...
没有解决我的问题, 去提问

悬赏问题

¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛

求教SparkStreaming 读取数据库表如mysql、cassandra等，每个batch是整张表吗？

1条回答 默认 最新

悬赏问题

1条回答默认最新