DV2 2016-06-04 08:25
浏览 1585
已结题

Spark RDD和HDFS数据一致性问题

这里想问个问题。

我用Spark SQL从HDFS load上来了一张表。
然后我现在有如下两种情况:

  1. 新增数据都是通过Spark SQL load进去的
    • 这时候我HDFS和RDD上面的数据是否一致
  2. 我数据是直接load到了HDFS上面(例如是个分区表,增加了一个分区)
    • 这时候我HDFS和RDD上面的数据是否一致

麻烦给出详细的原理过程或者参考链接

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥50 buildozer打包kivy app失败
    • ¥30 在vs2022里运行python代码
    • ¥15 不同尺寸货物如何寻找合适的包装箱型谱
    • ¥15 求解 yolo算法问题
    • ¥15 虚拟机打包apk出现错误
    • ¥15 用visual studi code完成html页面
    • ¥15 聚类分析或者python进行数据分析
    • ¥15 三菱伺服电机按启动按钮有使能但不动作
    • ¥15 js,页面2返回页面1时定位进入的设备
    • ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复