天涯客063 2022-03-29 13:48 采纳率: 66.7%
浏览 285
已结题

如何在txt文件内去除重复的数据?

问题遇到的现象和发生背景

我有一个有600万行数据的txt文件,想要去除重复的部分。
如图,图片里每行代表一个书名,书名前面是路径
每行的书名都有一个8位的数字,这个是ssid码。ssid长度是固定的,都是8位
其中第1,2,4行有相同的ssid:12090113,这3行就算是重复数据了,只要ssid相同,数据就属于重复数据

img


下面这张图是数据去重后的效果,只保留1行12090113的数据就行了。

img


这个功能要怎么实现?有没有啥软件可以推荐一下,或者python代码也可以,我电脑里有python环境

问题相关代码,请勿粘贴截图
运行结果及报错内容
我的解答思路和尝试过的方法
我想要达到的结果
  • 写回答

7条回答 默认 最新

  • 闹玩儿扣眼珠子 2022-03-29 13:51
    关注

    给点样例数据

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(6条)

报告相同问题?

问题事件

  • 系统已结题 2月13日
  • 已采纳回答 2月5日
  • 创建了问题 3月29日