spark streaming如何更好的计算关系型数据库中数据? 50C

各位大虾过来围观一下。
spark streaming在计算日志时通常会使用kafka+spark的架构,
目前很少看到有大虾讲spark streaming计算关系型数据库中的数据。
希望有大虾过来围观讨论,如何更好的把关系型数据库中的数据同步至spark中,
进行实时计算。有什么更好的架构或者开源软件的解决方案

2个回答

官网上看到Spark Streaming内置就支持两类数据源,
1) 基础数据源(Basic sources): StreamingContext API就可以直接调用。这类源主要有file systems(HDFS), socket connections, and Akka actors,Queue of RDDs(测试用)。
2) 高级数据源(Advanced sources): Kafka, Flume, Kinesis, Twitter, etc.调用这些源需要加载外部依赖程序包。

如果想加载除上面之外的数据源,需要自己实现Receiver接口,自定义Receiver可以参考:
https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/CustomReceiver.scala

非常感谢回答,目前我们考虑的就是高级数据源,主要是选择一种比较合适的框架。像kafka,但是kafka更适合日志。我们的数据都是MySQL

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐