1问题遇到的现象和发生背景需要处理数据量上亿的数据来去重,根据数据库某一个字段来作为唯一键来判断是否重复2我的解答思路和尝试过的方法我想用python dataframe自带的一个去重函数,但是数据量实在太大,内存承受不住,使用列表循环去重也不行3我想要达到的结果我想要最好能实现分批读取数据去重,不用redis等转库办法
收起
上亿的数据量,读出来都很费时间了,不仅内存扛不住,网络带宽、磁盘io都会有压力。为什么不直接在源数据库里用sql去重呢?
报告相同问题?