赶在日落之前 2022-02-15 15:53 采纳率: 14.3%
浏览 224
已结题

python 读取数据库上亿级数据如何去重呢

1问题遇到的现象和发生背景
需要处理数据量上亿的数据来去重,根据数据库某一个字段来作为唯一键来判断是否重复
2我的解答思路和尝试过的方法
我想用python dataframe自带的一个去重函数,但是数据量实在太大,内存承受不住,使用列表循环去重也不行
3我想要达到的结果
我想要最好能实现分批读取数据去重,不用redis等转库办法

  • 写回答

13条回答 默认 最新

  • DarkAthena ORACLE应用及数据库设计方案咨询师 2022-02-15 16:39
    关注
    获得0.50元问题酬金

    上亿的数据量,读出来都很费时间了,不仅内存扛不住,网络带宽、磁盘io都会有压力。为什么不直接在源数据库里用sql去重呢?

    评论

报告相同问题?

问题事件

  • 系统已结题 2月23日
  • 创建了问题 2月15日