阿黄Ahuang 2022-01-14 09:55 采纳率: 50%
浏览 12
已结题

大数据怎么保证采集器到Spark中数据一致性

img


如图从采集器到Yarn通过kafka进行数据传输,需要进行数据的预处理验证,确保源数据和推送到Hadoop中的数据一致
所以需要验证采集器到Yarn的数据是一致的(应该是吧)
那应该怎么验证呢?
我看到有说可以用md5sum校验数据文件,但是从采集器经过Kafka传输到Spark这个过程是传数据呀,没有传文件呀

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 1月22日
    • 创建了问题 1月14日

    悬赏问题

    • ¥15 echarts动画效果失效的问题。官网下载的例子。
    • ¥60 许可证msc licensing软件报错显示已有相同版本软件,但是下一步显示无法读取日志目录。
    • ¥15 Attention is all you need 的代码运行
    • ¥15 一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗
    • ¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事:
    • ¥15 前置放大电路与功率放大电路相连放大倍数出现问题
    • ¥30 关于<main>标签页面跳转的问题
    • ¥80 部署运行web自动化项目
    • ¥15 腾讯云如何建立同一个项目中物模型之间的联系
    • ¥30 VMware 云桌面水印如何添加