多线程添加数据,如何去重

数据来源是某网站上的公开数据,而且不排除这些数据会不定时更新...不过由于数据量比较大,所以我就想用多线程添加进数据库. 但是在入库的时候发现数据出现大量重复:我当时开了4个线程,最后存入数据库的数据量就是标准的4倍之多,也就是单个线程他已经把全部数据都取下来了. 但如果不用多线程的话,执行效率着实有点低. 有什么办法能在数据进入数据库之前就去重吗? 毕竟我不想对数据库做什么改动,而且数据库的效率有点低...

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
极北之地_ 2015-08-20 10:15
关注
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

java多线程批量插入数据报错 java mysql spring boot
2022-04-24 18:32

回答 11 已采纳如果你是springboot项目，像你说的那个批量处理数据什么的，你就用他自带的多线程方法ThreadPoolTaskExecutor，去处理，最后.join的方式加入到主线程，你只需要处理数据网数据
为什么启用多线程往sdb插入数据时，出现数据重复插入的情况？
2017-09-13 05:43

回答 4 已采纳 1、可能是用户在编写业务层时，出现了问题，从而导致了多次插入相同数据 2、查询sdb中出现重复的数据，通过对比它们的_id，如果它们不一样，说明了很有可能是用户在编写自己业务层时，出现了逻辑问题，从
java 多线程 出现数据重复调用问题 java
2015-05-04 02:25

回答 3 已采纳数据重复原因是多线程环境下未作同步处理导致的，可以参考这篇文章：http://blog.csdn.net/wojiushiwo945you/article/details/42553845 至于解决
java大数据集合去重,看看熟悉的ArrayList的源码 Java 9
2021-04-10 13:56

Bay Bay的博客往下继续就是我们用的比较多的ArrayList类了，相信说自己学过Java的都接触过这个类吧,实现的接口有Serializable, Cloneable, Iterable, Collection, List, RandomAccess，这个类和Vector很像，只是这个不是线程安全...
Java多线程调用生成多条数据 java
2022-11-10 10:39

回答 2 已采纳 1.统一社会信用代码设置为唯一键2.不做判断直接insert3.尝试捕获唯一键异常,如果是统一社会信用代码的唯一键冲突就执行更新疑问:为啥已经存在的该企业,该企业还需要注册企业信息?
对大数据集合拆分进行多线程实现 java
2021-11-07 14:02

回答 1 已采纳开辟线程是要占用资源的，第一个相当于开了10万个线程池，第二个开了100万个线程池，而你只用了了一个线程，开线程也是占用时间的，还会引起阻塞
MFC多线程查找数据，关于数据的分割
2016-04-07 07:58

回答 2 已采纳文件本身不要并发，应该分块读取到内存中，让不同的线程处理。
大数据之路读书笔记-03数据同步
2022-07-07 10:15

潘小磊的博客如第一章所述，我们将数据采集分为...对于大数据系统来说，包含数据从业务系统同步进入数据仓库和数据从数据仓库同步进入数据服务或数据应用两个方面。本章侧重讲解数据从业务系统同步进入数据仓库这个环节，但其适用
java-多线程对数据进行下发 java spring
2022-06-14 01:19

回答 5 已采纳我可以
C#winform中的多线程问题 c#
2017-12-26 04:16

回答 6 已采纳两个可能性，一个是你的点太多，或者持续增多，导致内存溢出。一个是你没有正确同步或者滥用同步，造成不必要的上锁。不知道你是怎么绘制的坐标点，是否启用了双缓冲，启用双缓冲可以提高性能。用vs带
R语言如何实现多线程？ r语言
2017-09-15 04:08

回答 1 已采纳 http://blog.sina.com.cn/s/blog_13ec737150102x58p.html
大数据——Python数据爬取
2021-02-02 17:02

蜂蜜柚子加苦茶的博客 Python数据爬取数据采集常用数据爬取工具安装配置Scrpy框架数据采集数据来源从网上爬取数据（crawling）从文件系统收集数据（scraping）文件、数据库等 ...多线程，爬取效率高安装配置Scrp
新手 Java 多线程 java
2018-09-20 09:01

回答 3 已采纳不一定，其他线程正常释放obj的锁也可以
大数据常见面试问题汇总
2023-07-12 12:50

Bigdata_shit的博客 1.19.2 如何创建多线程 1.19.3 如何创建线程池 1.19.4 ThreadPoolExecutor构造函数参数解析 1.19.5 列举线程安全的Map集合 1.19.6 StringBuffer和StringBuilder的区别 1.19.7 ArrayList和LinkedList的区别 1.19.8 ...
数据分析大数据面试题大杂烩02
2021-03-09 16:30

爱学习的菜鸟罢了的博客 Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(spill写入之前,...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

多线程添加数据,如何去重

6条回答 默认 最新

悬赏问题

6条回答默认最新