Team77
DV2
2016-06-04 08:25

Spark RDD和HDFS数据一致性问题

2

这里想问个问题。

我用Spark SQL从HDFS load上来了一张表。
然后我现在有如下两种情况:

  1. 新增数据都是通过Spark SQL load进去的
    • 这时候我HDFS和RDD上面的数据是否一致
  2. 我数据是直接load到了HDFS上面(例如是个分区表,增加了一个分区)
    • 这时候我HDFS和RDD上面的数据是否一致

麻烦给出详细的原理过程或者参考链接

  • 点赞
  • 回答
  • 收藏
  • 复制链接分享

0条回答