weixin_38065487 2019-03-31 13:11 采纳率: 50%
浏览 3415
已采纳

python如何抽取txt文件中用tab分隔的第一个字符串并去重?

环境:python3
现有一个三元组的txt文件,每个三元组占一行,实体和属性用tab键隔开;

如何抽取出每一行的第一个实体并将其写入一个txt,一个实体占一行。数据量比较大大概6500万条

我这么写的,是不是正则表达式的问题?

import datetime
import re

start_time = datetime.datetime.now()
print("start time:", start_time)
count = 1
f = open(r'D:\bishe_data\test.txt',encoding='utf-8',mode='r')
line = f.readline()
while line != "":
    s = re.split('^[^\s]+/t'',' ',data)
    print(s)
    line = f.readline()
f.close()
end_time = datetime.datetime.now()
print("end_time:", end_time)
print("during:", end_time - start_time)
print(count)

求大神解答!!

  • 写回答

2条回答

  • weixin_38065487 2019-03-31 14:16
    关注

    python

    result = re.sub('"|“|”|</ a>|<a>|★|\'',' ',data)
    a, b= result.split('\t')[0],result.split('\t')[-1]
    wt.write(a+'\n')
    wt1.write(b.strip('\n')+'\n')
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 乘性高斯噪声在深度学习网络中的应用
  • ¥15 运筹学排序问题中的在线排序
  • ¥15 关于docker部署flink集成hadoop的yarn,请教个问题 flink启动yarn-session.sh连不上hadoop,这个整了好几天一直不行,求帮忙看一下怎么解决
  • ¥30 求一段fortran代码用IVF编译运行的结果
  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛
  • ¥30 python代码,帮调试,帮帮忙吧