python 读取数据库上亿级数据如何去重呢

1问题遇到的现象和发生背景
需要处理数据量上亿的数据来去重，根据数据库某一个字段来作为唯一键来判断是否重复
2我的解答思路和尝试过的方法
我想用python dataframe自带的一个去重函数，但是数据量实在太大，内存承受不住，使用列表循环去重也不行
3我想要达到的结果
我想要最好能实现分批读取数据去重，不用redis等转库办法

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

13条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
DarkAthena ORACLE应用及数据库设计方案咨询师 2022-02-15 16:39
关注
获得0.50元问题酬金

上亿的数据量,读出来都很费时间了,不仅内存扛不住,网络带宽、磁盘io都会有压力。为什么不直接在源数据库里用sql去重呢？

解决 2

无用 2
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python对多属性的重复数据去重实例
2020-09-20 14:39

在实际应用中，数据可能来自不同的数据源，比如CSV文件、数据库等，使用Pandas的读取函数（如read_csv、read_sql等）可以轻松将数据加载到DataFrame中进行后续的处理和分析。总之，Pandas的duplicated和drop_...
python读取数据库数据类型_python数据库数据类型
2020-11-21 01:26

weixin_39968128的博客数字整数类型:整型的长度约束,实际上没有效果tinyinit有负号(默认): -128 ~ 127 超过报错(可以调整sql_mode,让其不报错)create table 表名(字段名 tinyint);insert into t1 values (-128);无符号: 0-255 超过报错...
Python数据库 -- 查询结果处理、SQL表内数据去重
2021-01-13 11:59

「已注销」的博客 Python脚本查询数据库及返回结果的处理 MySQL表内既有数据的去重思想及SQL语句
基于python与哈希算法实现图像去重
2022-06-25 10:28

本文将深入探讨如何利用Python编程语言和哈希算法来有效地实现图像去重。首先，我们要理解哈希算法的基本原理。哈希（Hash）算法是一种将任意长度的输入（也叫做预映射）通过一个算法，变换成固定长度的输出，这个...
python 数据去重_Python对多属性的重复数据去重实例
2020-11-24 04:30

weixin_39609573的博客 Python对多属性的重复数据去重实例python中的pandas模块中对重复数据去重步骤：1）利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行，没有重复行显示为FALSE，有重复行显示为TRUE；...
〖Python 数据库开发实战 - MySQL篇⑮〗- 数据表结果集的排序与去除重复(去重)
2022-07-24 23:55

哈哥撩编程的博客去重也是一样，虽然数据表的主键不能存在重复的记录，但是作为结果集却是可以有重复的情况出现的，针对结果集的去除重复记录，MySQL 也为我们提供了相对应的关键字 "DISTINCT" ，使用 "DISTINCT" 即可实现针对结果集...
python对大量数据去重_使用 Python 处理3万多条数据只要几秒钟
2020-11-24 04:30

weixin_39734074的博客这篇文章主要介绍了使用 Python 处理3万多条数据只要几秒钟的相关知识,需要的朋友可以参考下应用场景：工作中经常遇到大量的数据需要整合、去重、按照特定格式导出等情况。如果用 Excel 操作，不仅费时费力，还不...
数据库数据去重常用方式详解
2025-05-03 15:28

酷爱码的博客在数据库管理和数据分析中，**数据去重**是一项基础且关键的任务。...本文将详细介绍数据库中常用的数据去重方式，涵盖 SQL 语句、索引优化、高级函数以及 Python 工具的应用，并结合实际场景分析其适用性。
Python编程读取多个JSON实现数据去重
2018-11-25 23:43

xHibiki的博客现在假设有一些JSON文件,但是这些JSON中存在着某些key相同的重复数据,需要进行去重. import json # 这里读取7个json文件,并全部读取到data中 data = [] for i in range(1, 8): str = open(&quot;e:/{}...
python数据去重（pandas）
2019-08-06 17:17

Oliver、He的博客 python3数据去重（pandas）去重操作是我们处理数据的时候经常遇到的！接下来告诉大家，仅仅用几行代码就可以实现的去重操作这边会用到pandas库这是一个非常非常强大的库，这里面有着处理数据特别简单方便的方法...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月15日

python 读取数据库上亿级数据如何去重呢

13条回答 默认 最新

问题事件

13条回答默认最新