阿黄Ahuang 2022-01-14 09:55 采纳率: 50%
浏览 13
已结题

大数据怎么保证采集器到Spark中数据一致性

img


如图从采集器到Yarn通过kafka进行数据传输,需要进行数据的预处理验证,确保源数据和推送到Hadoop中的数据一致
所以需要验证采集器到Yarn的数据是一致的(应该是吧)
那应该怎么验证呢?
我看到有说可以用md5sum校验数据文件,但是从采集器经过Kafka传输到Spark这个过程是传数据呀,没有传文件呀

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 1月22日
    • 创建了问题 1月14日