问题描述
- 大神帮我改一下程序吧。去掉第一个逗号后内容重复的行。只保留一条
- #!/usr/bin/python
-*- coding: utf-8 -*-
原文本里边有重复的,去重复行
import re
quchong = open('G:07txtchongfuhang.txt''r').readlines()
quchonghou = open('G:07txtchongfuhanghou.txt''w')unique_quchong = []
for each_line in quchong:
if not each_line.find('') == -1:
(timecontent) = each_line.split(''1)
if content not in unique_quchong:
unique_quchong.append(content)
quchonghou.write(time+''+'n'.join(unique_quchong))a.txt:
3798 a3 1-14 16:52西部城区受到部分商圈打折促销影响阜成路、复兴路三环以外出城一线交通压力较大
3799 a3 1-14 16:53西部城区受到部分商圈打折促销影响阜成路、复兴路三环以外出城一线交通压力较大
3800 a3 1-14 16:58东北二环内环一线交通压力较大车辆选择平安大街、东外小街、朝外小街等道路行驶。我想得到的结果是:
b.txt:
3798 a3 1-14 16:52西部城区受到部分商圈打折促销影响阜成路、复兴路三环以外出城一线交通压力较大
3800 a3 1-14 16:58东北二环内环一线交通压力较大车辆选择平安大街、东外小街、朝外小街等道路行驶。删除行为:
3799 a3 1-14 16:53西部城区受到部分商圈打折促销影响阜成路、复兴路三环以外出城一线交通压力较大
解决方案
可以对逗号后面的字符串用三种不同的散列算法算Hash值,若三种Hash值都相同,就可以判定是同样的字符串。