zlianghu 2018-03-06 02:32 采纳率: 66.7%
浏览 1796
已采纳

大数据下的增量更新问题,局部更新而非全部更新

举个例子:第一次传入了100万条数据,第二次传入了200万条数据,而第二次传入的数据中包含了第一次的数据,同时在前100W条数据中有100条数据修改,现在我不知道100万的数据中有哪几条数据修改,怎么进行更新的时候,准确的找到修改和增加的数据进行更新,而不是全量更新?
(提示:我们不知道哪些数据是新更新,只有内容)
求个解决方案或思路……

  • 写回答

5条回答 默认 最新

  • ╭⌒若隐_RowYet——大数据 大数据领域优质创作者 2018-03-06 02:47
    关注

    大数据里面一般都没有修改和删除这个动作,其实都是插入数据,我们可以设置一个版本号,插入实现修改:如前100w条数据有一条,我们假设是数据A,数据A的内容是(id=1,name=张三,v=1(版本1)),
    当你第二插入要修改数据数据A时,只需要再次插入A(id=1,name=李四,v=2);而客户端读写的时候你可以设置每次读写最新的版本,这样就实现了修改;其实主要是控制这个版本号来修改;

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

悬赏问题

  • ¥15 mmocr的训练错误,结果全为0
  • ¥15 python的qt5界面
  • ¥15 无线电能传输系统MATLAB仿真问题
  • ¥50 如何用脚本实现输入法的热键设置
  • ¥20 我想使用一些网络协议或者部分协议也行,主要想实现类似于traceroute的一定步长内的路由拓扑功能
  • ¥30 深度学习,前后端连接
  • ¥15 孟德尔随机化结果不一致
  • ¥15 apm2.8飞控罗盘bad health,加速度计校准失败
  • ¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
  • ¥15 谁有desed数据集呀