mysql单表4000万行数据,如何按单个字段快速去重呢?电脑内存只有8G 5C

mysql单表4000万行数据,如何按单个字段快速去重呢?电脑内存只有8G

4个回答

使用distinct关键字,且给需要去重字段加上索引。

看你是什么类型的数据,可以先hash入表,然后分组。

看你的Where 条件是什么? 给这些Where 条件的column 增加索引(index)
保证查询的数据在几秒内即可求出

  1. 目标字段加索引;
  2. 单个字段过滤,用distinct即可;
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
mysql数据库中一个字段的数据 受另外另外一个表字段的影响 用触发器应该怎么实现呢??
mysql数据库中一个字段的数据 受另外另外一个表字段的影响 用触发器应该怎么实现呢??
mysql 单表数据行10亿
mysql 单表数据行10亿 频繁的查询 修改 删除 通过分区和索引 读写分离 可以解决 效率问题吗 ? 还是必须要分表那?
mysql 怎样在大表(300万行)中快速查询小表(1万行左右)对应的数据?
mysql 怎样在大表(300万行)中快速查询小表(1万行左右)对应的数据? ![图片说明](https://img-ask.csdn.net/upload/201904/24/1556074480_52023.png)
Mysql 在A表新增一条数据时,B表的b字段会根据A表的a字段的值增加或减小
用ibatis和mysql,用excel导入表格A时, A表有一个字段a每月还款额,B表有一个字段b总金额。_两个表根据peopleid关联_。 在A表插入一行新的数据,对应的B表的 某条数据 的字段b总金额发生更新变化。 请问在Action中或sql语句要如何实现这个功能
mysql单表千万数据如何优化
mysql 单表一千万的数据 多对多中间表 有A,B,C三张表 A表 表结构 id,name,time,.... B表 表结构 id,name.... C表(多对多中间表)表结构 id,Aid,Atime,Bid 为了优化把A表的time也放在了C表 C表 索引,index_Aid, index_Bid, index_Bid_Atime,index_Atime 查询语句:select DISTINCT Aid from C where Bid in (.....) order by Atime desc limit 0,20 在in大量的情况下 看解释器 走的索引是 index_Bid_Atime (Using index condition; Using temporary; Using filesort ) 很慢,如果把联合索引去掉 走排序的索引很快 在in只有1,2个的情况下 走联合索引很快,在排序索引很慢。有大神有优化办法吗?
mysql数据库如何设置一个字段不重复,一个字段自增?
如题。 mysql数据库如何设置一个字段不重复,一个字段自增?
datax 从hive导出数据到mysql时 字段分隔符的配置
hive中建表时指定字段分割符为 \t,配置导出的json时,配置字段分隔符为 \t,导出失败,原因是从hive读取数据时只能识别一个字段,显然字段分割没有成功。。网上百度说字段分隔符默认应设置为 \u0001,但这是在hive上建表时没有指定字段分割符时。。想搞明白这是什么原因,比如我的 \t 在导出时为什么不能使用呢,是hive无法识别吗?我建表的时候就是 \t 啊,是需要转成什么字符集吗。。在字符集这块比较晕,请大神指点指点[face]qq:83.gif[/face]
mysql大数据如何存储方便
我有大概500亿以上的数据 每条数据除了相应的主键ID外 由7个坐标点外加两个字段组成 属于全球范围内的坐标点 请问大佬如何存储这些数据比较好 另外 这500亿以上的数据还要每个再分化100份 请问 如何建表 mysql数据库 数据开始一次性生成 后续主要以查询为主 偶尔会update一下 update量小 单次最多100条数据
如果用的是mysql数据库,单表数据量大概到多少条记录量的时候,才需要考虑分库分表?
如果用的是mysql数据库,单表数据量大概到多少条记录量的时候,才需要考虑分库分表? 我们是传统的软件公司,做解决方案的,之前一直用oracle数据库,最近项目改用mysql数据库。 不知道mysql数据库性能如何,请问 mysql数据库,单表数据量大概到多少条记录量的时候,才需要考虑分库分表? mysql数据库单表的数据量上限是多少?
mysql数据同步:不同数据库名,不同表名,字段名也不相同,怎么同步数据呢?
工作当中遇到了一个问题,本人刚入行菜鸟不知道怎么解决,想问问大虾: A服务器上有数据库db_a,库中有表tbl_a,表中有字段col_a, B服务器上有数据库db_b,库中有表tbl_b,表中有字段col_b, AB数据库名不同,表名不同,字段名也不同。 现在需要把A服务器上tbl_a表中col_a字段的数据 同步到 B服务器上tbl_b表中col_b字段。 (也不知道我的描述各位看官能看懂不) 该怎么做呢? 数据库的主从复制能够做到么?
mysql怎样把一张表中的某些字段复制到另一张表中(这张表还未添加任何数据)?大神帮帮忙
mysql怎样把一张表中的某些字段复制到另一张表中(这张表还未添加任何数据)?
mysql或者oracle数据库何时需要调整表字段顺序的需求?
在学习mysql或者oracle建表语句,修改表alter table语法时, 虽然有调整表字段的顺序语法,我在思考一个问题,项目上线了一段时间,什么时候有调整表字段顺序的需求?
mysql怎么存储excel表中字段具有分类关系的数据?
![图片说明](https://img-ask.csdn.net/upload/201912/20/1576825499_959557.png) excel表中的数据 ![图片说明](https://img-ask.csdn.net/upload/201912/20/1576822427_691193.png) 数据库表结构 ![图片说明](https://img-ask.csdn.net/upload/201912/20/1576823624_760950.png) 存入效果大致是这样的,excel表中有大量的数据,不可能手动存储,怎么办 要求子级的jobtype_id 与父级的id相对应,怎么存储 需要具体详细的读取excel表并将数据库存入数据库的java代码,或运用navicat的储存过程也行(详细一些)
MySql 通过一个表的字段查另一个表的字段
A表中有个a字段,B表中也有个a字段,我现在想通过A表中的a字段关联B表中的a 字段,然后查询B表中的b字段,sql语句应该如何写 谢谢
MYSQL数据库表字段类型varchar改成double如何才能不丢失精度
MYSQL数据库表字段类型varchar改成double如何才能不丢失精度, 因为varchar里面之前都是存的double数据,但是忘记修改类型了, 现在直接修改类型把varchar改成double会丢失精度, 比如:123.45 修改成double后 就变成 123.0了 如何才能修改类型又不丢失精度, 因为我要做sum查询总数,为varchar的话 查询结果会有问题!
三个字段确定一行数据,数据量太大
用的是mysql,现在有三张表,区域,品牌,供应商,这三个要素成立一行数据,自然想到的就是建有这三个字段的中间表,可问题是区域表有4000行,品牌表有1000行,供应商表有200行,那么这张中间表会达到亿级别的数据,这样肯定不行的 。我想到一个办法是依旧这张中间表,其中品牌字段用品牌id逗号分隔,数据量减少到数十万,好了很多,只是查询还真的比较麻烦。 请问各位有什么好方法吗?
MYSQL建表字段问题 10101010
想请问下:MYSQL建立一个表的字段假如是用来存储用户名的,那这个字段要用什么的比较好,我用阿里云的MYSQL,他死活不让我建,好像是字段长度问题; 有个问题就是假如我用CHAR类型,然后长度设置30,那么用户注册的话用户名只有20,注册成功了之后下次登录会不会查询不到用户名呢?我看百度说如果不足设置的长度,会自己填充进去那查询会不会出错呢,求大哥哥讲讲
mysql中怎么向视图中添加原表没有的字段呢?
1.在mydb数据库中创建student数据表,表中有id、name(学生姓名)、math(数学成绩)、chinese(语文成绩)和english(英语成绩) 字段。然后创建视图view_score,视图中包含math、chinese、english和total(总分数)字段。
Mysql中A表中的字段根据B表中A表ID的成绩的平均值来变化,可以实现吗?
# Mysql中A表中的字段根据B表中A表ID的成绩的平均值来变化,可以实现吗? **就是有一张数据表A表有ID 成绩 等等** ** 另外的B表是评论数据其中有表A的ID,以及对这个ID的评分 评分有很多个,请问可以在表A把成绩这个字段设置成根据表B的若干条成绩的平均分来变化这样子嘛?**
Kafka实战(三) - Kafka的自我修养与定位
Apache Kafka是消息引擎系统,也是一个分布式流处理平台(Distributed Streaming Platform) Kafka是LinkedIn公司内部孵化的项目。LinkedIn最开始有强烈的数据强实时处理方面的需求,其内部的诸多子系统要执行多种类型的数据处理与分析,主要包括业务系统和应用程序性能监控,以及用户行为数据处理等。 遇到的主要问题: 数据正确性不足 数据的收集主要...
volatile 与 synchronize 详解
Java支持多个线程同时访问一个对象或者对象的成员变量,由于每个线程可以拥有这个变量的拷贝(虽然对象以及成员变量分配的内存是在共享内存中的,但是每个执行的线程还是可以拥有一份拷贝,这样做的目的是加速程序的执行,这是现代多核处理器的一个显著特性),所以程序在执行过程中,一个线程看到的变量并不一定是最新的。 volatile 关键字volatile可以用来修饰字段(成员变量),就是告知程序任何对该变量...
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它是一个过程,是一个不断累积、不断沉淀、不断总结、善于传达自己的个人见解以及乐于分享的过程。
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
有哪些让程序员受益终生的建议
从业五年多,辗转两个大厂,出过书,创过业,从技术小白成长为基层管理,联合几个业内大牛回答下这个问题,希望能帮到大家,记得帮我点赞哦。 敲黑板!!!读了这篇文章,你将知道如何才能进大厂,如何实现财务自由,如何在工作中游刃有余,这篇文章很长,但绝对是精品,记得帮我点赞哦!!!! 一腔肺腑之言,能看进去多少,就看你自己了!!! 目录: 在校生篇: 为什么要尽量进大厂? 如何选择语言及方...
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
linux系列之常用运维命令整理笔录
本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢慢积累一些其它拓展的命令,博客不定时更新 free -m 其中:m表示兆,也可以用g,注意都要小写 Men:表示物理内存统计 total:表示物理内存总数(total=used+free) use...
比特币原理详解
一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是国家信用。去中心化电子记账系统是参与者共同记账。比特币可以防止主权危机、信用风险。其好处不多做赘述,这一层面介绍的文章很多,本文主要从更深层的技术原理角度进行介绍。 二、问题引入 假设现有4个人...
GitHub开源史上最大规模中文知识图谱
近日,一直致力于知识图谱研究的 OwnThink 平台在 Github 上开源了史上最大规模 1.4 亿中文知识图谱,其中数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用 csv 格式。 到目前为止,OwnThink 项目开放了对话机器人、知识图谱、语义理解、自然语言处理工具。知识图谱融合了两千五百多万的实体,拥有亿级别的实体属性关系,机器人采用了基于知识图谱的语义感...
程序员接私活怎样防止做完了不给钱?
首先跟大家说明一点,我们做 IT 类的外包开发,是非标品开发,所以很有可能在开发过程中会有这样那样的需求修改,而这种需求修改很容易造成扯皮,进而影响到费用支付,甚至出现做完了项目收不到钱的情况。 那么,怎么保证自己的薪酬安全呢? 我们在开工前,一定要做好一些证据方面的准备(也就是“讨薪”的理论依据),这其中最重要的就是需求文档和验收标准。一定要让需求方提供这两个文档资料作为开发的基础。之后开发...
网页实现一个简单的音乐播放器(大佬别看。(⊙﹏⊙))
今天闲着无事,就想写点东西。然后听了下歌,就打算写个播放器。 于是乎用h5 audio的加上js简单的播放器完工了。 演示地点演示 html代码如下` music 这个年纪 七月的风 音乐 ` 然后就是css`*{ margin: 0; padding: 0; text-decoration: none; list-...
微信支付崩溃了,但是更让马化腾和张小龙崩溃的竟然是……
loonggg读完需要3分钟速读仅需1分钟事件还得还原到昨天晚上,10 月 29 日晚上 20:09-21:14 之间,微信支付发生故障,全国微信支付交易无法正常进行。然...
Python十大装B语法
Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。
数据库优化 - SQL优化
以实际SQL入手,带你一步一步走上SQL优化之路!
2019年11月中国大陆编程语言排行榜
2019年11月2日,我统计了某招聘网站,获得有效程序员招聘数据9万条。针对招聘信息,提取编程语言关键字,并统计如下: 编程语言比例 rank pl_ percentage 1 java 33.62% 2 cpp 16.42% 3 c_sharp 12.82% 4 javascript 12.31% 5 python 7.93% 6 go 7.25% 7 p...
通俗易懂地给女朋友讲:线程池的内部原理
餐盘在灯光的照耀下格外晶莹洁白,女朋友拿起红酒杯轻轻地抿了一小口,对我说:“经常听你说线程池,到底线程池到底是个什么原理?”
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
将代码部署服务器,每日早上定时获取到天气数据,并发送到邮箱。 也可以说是一个小型人工智障。 知识可以运用在不同地方,不一定非是天气预报。
经典算法(5)杨辉三角
杨辉三角 是经典算法,这篇博客对它的算法思想进行了讲解,并有完整的代码实现。
英特尔不为人知的 B 面
从 PC 时代至今,众人只知在 CPU、GPU、XPU、制程、工艺等战场中,英特尔在与同行硬件芯片制造商们的竞争中杀出重围,且在不断的成长进化中,成为全球知名的半导体公司。殊不知,在「刚硬」的背后,英特尔「柔性」的软件早已经做到了全方位的支持与支撑,并持续发挥独特的生态价值,推动产业合作共赢。 而对于这一不知人知的 B 面,很多人将其称之为英特尔隐形的翅膀,虽低调,但是影响力却不容小觑。 那么,在...
腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹?
昨天,有网友私信我,说去阿里面试,彻底的被打击到了。问了为什么网上大量使用ThreadLocal的源码都会加上private static?他被难住了,因为他从来都没有考虑过这个问题。无独有偶,今天笔者又发现有网友吐槽了一道腾讯的面试题,我们一起来看看。 腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹? 在互联网职场论坛,一名程序员发帖求助到。二面腾讯,其中一个算法题:64匹...
面试官:你连RESTful都不知道我怎么敢要你?
干货,2019 RESTful最贱实践
刷了几千道算法题,这些我私藏的刷题网站都在这里了!
遥想当年,机缘巧合入了 ACM 的坑,周边巨擘林立,从此过上了"天天被虐似死狗"的生活… 然而我是谁,我可是死狗中的战斗鸡,智力不够那刷题来凑,开始了夜以继日哼哧哼哧刷题的日子,从此"读题与提交齐飞, AC 与 WA 一色 ",我惊喜的发现被题虐既刺激又有快感,那一刻我泪流满面。这么好的事儿作为一个正直的人绝不能自己独享,经过激烈的颅内斗争,我决定把我私藏的十几个 T 的,阿不,十几个刷题网...
为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?
关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。 声明:本文不会下关于Mybatis和JPA两个持久层框架哪个更好这样的结论。只是摆事实,讲道理,所以,请各位看官勿喷。 一、事件起因 关于Mybatis和JPA孰优孰劣的问题,争论已经很多年了。一直也没有结论,毕竟每个人的喜好和习惯是大不相同的。我也看...
白话阿里巴巴Java开发手册高级篇
不久前,阿里巴巴发布了《阿里巴巴Java开发手册》,总结了阿里巴巴内部实际项目开发过程中开发人员应该遵守的研发流程规范,这些流程规范在一定程度上能够保证最终的项目交付质量,通过在时间中总结模式,并推广给广大开发人员,来避免研发人员在实践中容易犯的错误,确保最终在大规模协作的项目中达成既定目标。 无独有偶,笔者去年在公司里负责升级和制定研发流程、设计模板、设计标准、代码标准等规范,并在实际工作中进行...
SQL-小白最佳入门sql查询一
不要偷偷的查询我的个人资料,即使你再喜欢我,也不要这样,真的不好;
项目中的if else太多了,该怎么重构?
介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if(msgType = "图片") { // doshomething } else if(msgType = "视频") { // doshomething } else { // doshom...
Nginx 原理和架构
Nginx 是一个免费的,开源的,高性能的 HTTP 服务器和反向代理,以及 IMAP / POP3 代理服务器。Nginx 以其高性能,稳定性,丰富的功能,简单的配置和低资源消耗而闻名。 Nginx 的整体架构 Nginx 里有一个 master 进程和多个 worker 进程。master 进程并不处理网络请求,主要负责调度工作进程:加载配置、启动工作进程及非停升级。worker 进程负责处...
YouTube排名第一的励志英文演讲《Dream(梦想)》
Idon’t know what that dream is that you have, I don't care how disappointing it might have been as you've been working toward that dream,but that dream that you’re holding in your mind, that it’s po...
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于GUI开发时测试文本渲染,因此开发了这个废话生成器。但由于生成的废话实在是太过富于哲理,所以最近已经被小伙伴们给玩坏了。 他的文风可能是这样的: 你发现,...
程序员:我终于知道post和get的区别
是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎
相关热词 c# 引用mysql c#动态加载非托管dll c# 两个表数据同步 c# 返回浮点json c# imap 链接状态 c# 漂亮字 c# 上取整 除法 c#substring c#中延时关闭 c#线段拖拉
立即提问