nanshansusu 2022-03-05 18:03 采纳率: 0%
浏览 26

用户名重复100次以上的数据全部删除,重复10-100次的用户数据随机删除一半,怎么操作?

因为数据灌水,所以想降低多次发言用户的数据权重。具体要求:希望可以将发言次数大于100的用户(author)数据全部删除,小于100,大于等于10的用户的数据,随机删除一半(希望是每个用户的数据随机去一半,不是整个数据集删除一半),最后导出excel文件。
数据大概是这个样子的:

img

img

等一个解决方法,感谢!

  • 写回答

1条回答 默认 最新

  • 一毛钱的年代 2022-03-06 12:01
    关注

    最方便是写句sql语句即可,思路如下:
    1.groub by author having count (1) <100,只select发言次数小于100的用户信息,大于的author被过滤(删除)了
    2.对每个用户发言条数进行排序rank
    3.对每个用户的排序rank条数进行random随机选择一半数据,即可以得到每个用户的一半数据

    评论

报告相同问题?

问题事件

  • 创建了问题 3月5日