python如何抽取txt文件中用tab分隔的第一个字符串并去重?

环境:python3
现有一个三元组的txt文件,每个三元组占一行,实体和属性用tab键隔开;

如何抽取出每一行的第一个实体并将其写入一个txt,一个实体占一行。数据量比较大大概6500万条

我这么写的,是不是正则表达式的问题?

import datetime
import re

start_time = datetime.datetime.now()
print("start time:", start_time)
count = 1
f = open(r'D:\bishe_data\test.txt',encoding='utf-8',mode='r')
line = f.readline()
while line != "":
    s = re.split('^[^\s]+/t'',' ',data)
    print(s)
    line = f.readline()
f.close()
end_time = datetime.datetime.now()
print("end_time:", end_time)
print("during:", end_time - start_time)
print(count)

求大神解答!!

weixin_38065487
weixin_38065487 哈哈 同学给解决了 result = re.sub('"|“|”|</ a>|<a>|★|\'',' ',data) a, b= result.split('\t')[0],result.split('\t')[-1] wt.write(a+'\n') wt1.write(b.strip('\n')+'\n')
一年多之前 回复

2个回答

python

result = re.sub('"|“|”|</ a>|<a>|★|\'',' ',data)
a, b= result.split('\t')[0],result.split('\t')[-1]
wt.write(a+'\n')
wt1.write(b.strip('\n')+'\n')

是的,你的\t写成了/t

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐