天涯客063 2022-03-29 13:48 采纳率: 33.3%
浏览 276

如何在txt文件内去除重复的数据?

问题遇到的现象和发生背景

我有一个有600万行数据的txt文件,想要去除重复的部分。
如图,图片里每行代表一个书名,书名前面是路径
每行的书名都有一个8位的数字,这个是ssid码。ssid长度是固定的,都是8位
其中第1,2,4行有相同的ssid:12090113,这3行就算是重复数据了,只要ssid相同,数据就属于重复数据

img


下面这张图是数据去重后的效果,只保留1行12090113的数据就行了。

img


这个功能要怎么实现?有没有啥软件可以推荐一下,或者python代码也可以,我电脑里有python环境

问题相关代码,请勿粘贴截图
运行结果及报错内容
我的解答思路和尝试过的方法
我想要达到的结果
  • 写回答

6条回答 默认 最新

  • CSDN专家-HGJ 2022-03-29 16:44
    关注

    可以使用pandas处理,存取数据和筛选数据几行代码即可,代码这样写:

    import pandas as pd
    import re
    df=pd.read_csv('t2.txt',names=['v'],header=None)
    df['id']=df['v'].apply(lambda x:re.findall('\d{8}',x)[0])
    df1 = df.drop_duplicates(subset='id',keep='first').drop('id', axis=1)
    df1.to_csv('t2_1.txt',index=False,header=None)
    
    

    对已给的数据样例,运行结果(t2_1.txt)内容:

    / DX4.0/A-1/10001271.pdf(3.0MB)
    / DX4.0/A-1/10004130.pdf(4.0MB)
    / DX4.0/A-1/10004131.pdf(3.0MB)
    

    如有帮助,请点采纳

    评论

报告相同问题?

问题事件

  • 创建了问题 3月29日

悬赏问题

  • ¥20 python爬虫遇到空文本取不出来
  • ¥15 x264库中预测模式字IPM、运动向量差MVD、量化后的DCT系数的位置
  • ¥15 curl 命令调用正常,程序调用报 java.net.ConnectException: connection refused
  • ¥20 关于web前端如何播放二次加密m3u8视频的问题
  • ¥15 使用百度地图api 位置函数报错?
  • ¥15 metamask如何添加TRON自定义网络
  • ¥66 关于川崎机器人调速问题
  • ¥15 winFrom界面无法打开
  • ¥30 crossover21 ARM64版本安装软件问题
  • ¥15 mymetaobjecthandler没有进入