如何在我的数据库中有效地查找和保存重复推文的日志？

Please consider the following "tweets" table:

tweet_id user_id text      
----------------------------
 1       1       lorem ipsum
 2       1       lorem ipsum
 3       2       pear
 4       1       dolor
 5       3       foo
 6       1       dolor
 7       1       dolor
 8       3       bar
 9       3       baz
10       4       happy
11       4       happy
12       2       apple
13       3       foo
14       4       happy

In reality, the table contains millions of tweets from about 80,000 users. Many of there users are spam accounts, but they are hard to identify by hand. As a rule of thumb, spam accounts post the same message at least 3 times. That's why I want to fill the following tables, "duplicates" on the left and "duplicates_tweets" on the right:

duplicate_id user_id  text         cnt       duplicate_id  tweet_id
--------------------------------------       ----------------------
1            1        lorem ipsum  2         1              1
2            1        dolor        3         1              2
3            2        pear         1         2              4
4            2        apple        1         2              6
5            3        foo          2         2              7
6            3        bar          1         3              3
7            3        baz          1         4             12
8            4        happy        3         5              5
                                             5             13
                                             6              8
                                             7              9
                                             8             10
                                             8             11
                                             8             14

I can now very easily sort on cnt for instance, and see which users post the most duplicate messages. My question however, is how to go about this most efficiently. In other words: what query would be most efficient to fill these tables? And is it possible with just SQL or should I use PHP as an intermediary, for instance to take a tweet from the "tweets" database, scans for duplicates, fills the tables, and moves on to the next tweet? I'm afraid this would take ages to finish, so any help is greatly appreciated!

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douweida2669 2012-03-31 19:00
关注
You can use the REPLACE function in MySQL to UPDATE or INSERT a new row based on the key:

REPLACE duplicates SELECT user_id, text FROM (SELECT user_id, text, count(1) as count FROM tweets GROUP BY user_id, text HAVING count(1) > 2))
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

在sql中多大的数据才算是大数据？ java mysql 数据库
2022-03-31 17:24

回答 5 已采纳其实没有实际的标准明确定义多少数据量算大数据，不过阿里开发手册中建议，表数据超过500万条时，建议考虑分表，以防影响查询效率，不过我们公司也有单表超过几千万条的数据，效率确实不高，所以理论上百万级别以
RSA算法中的公钥和私钥可以保存在数据库里面吗？ java mysql python
2019-04-15 15:22

回答 1 已采纳可以存在数据库，不过同样的读取后存本地，为了安全可以使用后再删除，不过RSA客户端只要有公钥就行了，私钥只有服务端持有，不会被篡改的，公钥任何人都可以知道。
IN和EXISTS在哪些数据库中,性能差异会非常大? sql 数据库
2017-03-07 06:50

回答 3 已采纳 IN 是把外表和内表做hash连接，而exists是对外表做loop循环，每次loop循环再对内表进行查询如果查询的两个表大小相当，那么用in和exists差别不大。如果两个表一个较小
2023年大数据面试通关文牒系列篇
2023-06-20 22:16

AuZn666的博客内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己制定（如果没有LOCATION，Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个...
用户登录记录在数据库中是怎样存储的呢？？ mongodb mysql sql sqlite
2019-11-08 11:03

回答 1 已采纳两个表，一个是用户信息表，一个是登陆日志表，数据量如果比较大，登陆日志表要做分表
Delphi 如何把CheckBox的选择结果保存到数据库中？数据库
2017-06-27 14:39

回答 2 已采纳建议看看 TDataSet 控件的用法
java在大数据里面主要做什么呢？ java 大数据
2022-08-08 21:59

回答 3 已采纳 java数据挖掘数据仓储数据清洗全栈都可以啊具体可以了解下hadoop
【数据库系统】数据库系统学习与实践系列文章汇总目录（持续更新中）
2021-08-30 14:49

memcpy0的博客这篇文章属于本人参考诸多书籍、博客、教程、文档等资料，所撰写的「计算机网络学习实践」系列文章的汇总目录，内容随时可能发生更新变动，欢迎关注和收藏本文以作备忘。这是本文的不完全参考目录： 数据库系统...
数据库中保存身高和体重这个范围字段怎么保存比较好？
2016-08-22 02:07

回答 7 已采纳你可以使用json格式的方式存储，按照约定的格式解析即可比如 { "size": { "M": "170-175", "L": "175-180"
Xpath foreach 如何遍历table下的所有节点并且插入数据库？或者保存在本地文件中？数据库
2017-08-12 10:32

回答 2 已采纳 c# hap 如何遍历？
如何根据数据库中的数据自动在网页上生成图形？数据库
2017-09-27 15:13

回答 5 已采纳 http://www.cnblogs.com/oxspirt/p/5433819.html 用canvas
项目中最困难的部分_微服务最难的部分是什么？您的资料
2020-07-07 11:05

cuml0912的博客项目中最困难的部分在本文中，我将探讨创建和开发微服务时最棘手的问题：您的数据。使用Spring Boot / Dropwizard / Docker并不意味着您在做微服务。仔细查看您的域和数据将有助于您使用微服务。（有关更多背景...
在HttpsessionListener中操作数据库，getBean获取不了怎么办？在线等 hibernate http spring 数据库
2017-07-15 07:13

回答 1 已采纳 userInfoTableDaoImpl 试试
100个数据分析常用指标和术语
2022-04-15 11:30

lyc2016012170的博客大家好，我是辰哥~有个朋友是金融行业产品经理，最近在对已有的站内用户做分层与标签分类，需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生，但是像市场运营人员就会把这类些名词概念搞混，...
大数据毕业设计python+spark知识图谱音乐推荐系统音乐数据分析可视化大屏音乐爬虫 LSTM情感分析 大数据毕设深度学习机器学习人工智能计算机毕业设计
2024-04-21 00:00

B站计算机毕业设计超人的博客 大数据毕业设计python+spark知识图谱音乐推荐系统音乐数据分析可视化大屏音乐爬虫 LSTM情感分析 大数据毕设深度学习机器学习人工智能计算机毕业设计
没有解决我的问题, 去提问

悬赏问题

¥100 set_link_state
¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化
¥15 Tableau online 嵌入ppt失败
¥100 支付宝网页转账系统不识别账号
¥15 基于单片机的靶位控制系统
¥15 真我手机蓝牙传输进度消息被关闭了，怎么打开？(关键词-消息通知)
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度

如何在我的数据库中有效地查找和保存重复推文的日志？

5条回答 默认 最新

悬赏问题

5条回答默认最新