baidu_33463617 2015-12-28 13:56 采纳率: 0%
浏览 1381

大神帮我改一下程序吧。去掉第一个逗号后内容重复的行。只保留一条

#!/usr/bin/python

-*- coding: utf-8 -*-

原文本里边有重复的,去重复行

import re
quchong = open('G:\007txt\chongfuhang.txt','r').readlines()
quchonghou = open('G:\007txt\chongfuhanghou.txt','w')

unique_quchong = []
for each_line in quchong:
if not each_line.find(',') == -1:
(time,content) = each_line.split(',',1)
if content not in unique_quchong:
unique_quchong.append(content)
quchonghou.write(time+','+'\n'.join(unique_quchong))

a.txt:              

3798 a3 1-14 16:52,西部城区,受到部分商圈打折促销影响,阜成路、复兴路三环以外出城一线交通压力较大,
3799 a3 1-14 16:53,西部城区,受到部分商圈打折促销影响,阜成路、复兴路三环以外出城一线交通压力较大,
3800 a3 1-14 16:58,东北二环内环一线交通压力较大,车辆选择平安大街、东外小街、朝外小街等道路行驶。

我想得到的结果是:
b.txt:
3798 a3 1-14 16:52,西部城区,受到部分商圈打折促销影响,阜成路、复兴路三环以外出城一线交通压力较大,
3800 a3 1-14 16:58,东北二环内环一线交通压力较大,车辆选择平安大街、东外小街、朝外小街等道路行驶。

删除行为:
3799 a3 1-14 16:53,西部城区,受到部分商圈打折促销影响,阜成路、复兴路三环以外出城一线交通压力较大,

  • 写回答

1条回答 默认 最新

  • wuheng_1 2015-12-28 14:23
    关注

    可以对逗号后面的字符串用三种不同的散列算法算Hash值,若三种Hash值都相同,就可以判定是同样的字符串。

    评论

报告相同问题?