这里想问个问题。
我用Spark SQL从HDFS load上来了一张表。
然后我现在有如下两种情况:
- 新增数据都是通过Spark SQL load进去的
- 这时候我HDFS和RDD上面的数据是否一致
- 我数据是直接load到了HDFS上面(例如是个分区表,增加了一个分区)
- 这时候我HDFS和RDD上面的数据是否一致
麻烦给出详细的原理过程或者参考链接
这里想问个问题。
我用Spark SQL从HDFS load上来了一张表。
然后我现在有如下两种情况:
麻烦给出详细的原理过程或者参考链接