Python写的比较2个文件不同的程序,如果其中有1个文件不同,就会返回第一个不同的地方的行号和列号。
下面给出比较文件的Python源代码:
代码如下 | 复制代码 |
# 用Python比较两个文件 # 如果相同返回0 def cmpstr(str1, str2): fa = file1.readlines() #用GBK解码,这样可以处理中文字符 row = 0 #学习Python上玩蛇网 www.iplaypython.com! #如果有一行不同,或者文件长度不一样 #获取用户输入。 |
python比较两个文件的差异
下面的python代码比较两个文件的不同之处,并将比较的结果输出出来。
代码如下 | 复制代码 |
#version 0 import sys f1 = open(sys.argv[1], "r") fileOne = f1.readlines() f1.close() outFile1 = open(sys.argv[3], "w") for i in fileOne: for i in fileTwo: outFile1.close() #first time refacotring #verify inputs if len(sys.argv)<5: #open files with try fileOne = f1.readlines() f1.close() #open files with try l_minus=lambda x,y:list(set(x)-set(y)) outFile1.write('n'.join(l_minus(fileOne,fileTwo))) outFile1.close() #2nd time refactoring #verify inputs if len(sys.argv)<5: #open files with try #list subset |
Python 程序比较两文件夹差异并读取出来
在客户那边建库,需要把几百个G几十万个文件导入到Oracle里,好不容易导完了才发现中间缺了好几大块数据,约有四分之一吧,郁闷得很。
数据是客户从第三方买的,据客户分析是拷贝过来的时候有部分数据漏掉了,但漏掉的数据又没有什么规律,加之文件夹的嵌套层数很多,查找起来很困难。
客户又从第三方那边拷了一份全的数据,现在对这个问题有两种处理方案,一种是全部重新导一遍,大约得花一周多的时间;另一种方案是把两个数据的差异找出来,把差异的部分追加进去就行了。
项目的时间比较紧张了,只能选第二种方案,可如何把差异的数据找出来呢,试了几个文件夹比较的工具,处理几百兆的数据都吃力,更不必说这么大量的数据和文件了。
后来想了想,觉得Python解决这个问题比较方便,就研究了一下Python里的文件和目录操作,很快就完成了下面的一个脚本,可以很好地解决这个问题。
下面的脚本可以在Python24里很好地运行,在其他版本里没有测试,但用的都是基本功能,应该没有什么问题。
代码里的PathA是全的数据的文件夹,PathB是不全的数据的文件夹,PathC是个新的空目录,脚本执行完后就把PathA中有且pathB中没有的文件和目录都写到PathC里了,还可以保持原来的目录结构,速度和正确性都很令人满意。
因为是急用的代码,所以写得不很简洁,也不是很规范,在此留志,一方面供自己以后参考,另一方面也提供给需要使用Python进行文件和目录操作的兄弟们共同参考。
代码如下:
代码如下 | 复制代码 |
# coding: GB2312
#系统模块 #这个是完整的文件夹 #这个是目标文件夹 #============================================================ |