聆听--风雨 2017-12-22 13:27 采纳率: 100%
浏览 7667
已采纳

elasticsearch 如何批量删除重复数据?

elasticsearch中录入了许多重复数据,比如说我有username和password两个字段,elasticsearch中拥有许多username和password两个字段都一样但是id不一样的记录,该如何删除重复的数据只保留一条呢?在线等,挺急的。如下图
图片说明
目前共有一亿八千多万document,重复的估计得有个几千万
图片说明

  • 写回答

4条回答 默认 最新

  • Cry_King 2017-12-22 17:18
    关注

    可以自己写个工具,遍历所有数据,之后把当前数据的过滤条件拿出来,再进行组合查询,如果count>1,则删除留下一个。当然机器性能好可能会过滤快点

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
  • threenewbee 2017-12-22 13:32
    关注

    应该把username作为主键,而不是另外搞id

    评论
  • Cry_King 2017-12-22 17:19
    关注

    当然在,组合查询那可以使用deleteByquery的插件,会提升很大的性能

    评论
  • ccjjtt20 2017-12-23 02:10
    关注
    评论
查看更多回答(3条)

报告相同问题?

悬赏问题

  • ¥15 (关键词-聊天软件)
  • ¥15 求大家看看这个编程的编法没有思路啊
  • ¥20 WSL打开图形化程序子窗口无法点击
  • ¥15 Jupyter Notebook 数学公式不渲染
  • ¥20 ERR_CACHE_MISS 确认重新提交表单
  • ¥20 关于vba使用HTMLfile执行js函数问题
  • ¥60 悬赏求解,通过实时现场摄像头的视频图像识别其他对家打出的麻将牌,识别麻将牌,识别牌墙位置,通过识别对家打出了什么牌
  • ¥15 关于#GPU jetson#的pcie驱动开发问题,如何解决?
  • ¥15 stm32f103zet6 串口5无法收发数据
  • ¥15 关于C语言使用线程队列实现多线程并发