问题遇到的现象和发生背景
我有一个有600万行数据的txt文件,想要去除重复的部分。
如图,图片里每行代表一个书名,书名前面是路径
每行的书名都有一个8位的数字,这个是ssid码。ssid长度是固定的,都是8位
其中第1,2,4行有相同的ssid:12090113,这3行就算是重复数据了,只要ssid相同,数据就属于重复数据
下面这张图是数据去重后的效果,只保留1行12090113的数据就行了。
这个功能要怎么实现?有没有啥软件可以推荐一下,或者python代码也可以,我电脑里有python环境