整理几个用Python写的比较两文件差异的程序【推荐】

Python写的比较2个文件不同的程序,如果其中有1个文件不同,就会返回第一个不同的地方的行号和列号。

下面给出比较文件的Python源代码:

 代码如下 复制代码
# 用Python比较两个文件
# 如果相同返回0

def cmpstr(str1, str2):
    col = 0
    for c1, c2 in zip(str1, str2):
        if c1 == c2:
            col += 1
            continue
        else :
            break
       
    #判断是怎样退出循环的,还有一种情况是串长度不同
    if c1 != c2 or len(str1) != len(str2):
        return col+1
    else :
        return 0
   
file1 = open("a.txt",'r')
file2 = open("b.txt",'r')

fa = file1.readlines()
fb = file2.readlines()
file1.close()
file2.close()

#用GBK解码,这样可以处理中文字符
fa = [ str.decode("gbk") for str in fa]
fb = [ str.decode("gbk") for str in fb]

row = 0
col = 0

#学习Python上玩蛇网 www.iplaypython.com!
#开始比较内容
for str1, str2 in zip(fa, fb):
    col = cmpstr(str1,str2)
    # col=0则说明两行相等
    if col == 0 :
        row += 1
        continue
    else:
        break

#如果有一行不同,或者文件长度不一样
if str1 != str2 or len(fa) != len(fb):
    #打印出不同的行序和列序,并把不同的前一句后本句打印出来
    #最后两个字符是不同的地方
    print "row:", row+1, "col:", col
    print "file a is:n", fa[row-1],fa[row][:col+1], "n"
    print "file b is:n", fb[row-1],fb[row][:col+1], "n"
else :
    print "All are same!"

#获取用户输入。   
raw_input("Press Enter to exit.")  

python比较两个文件的差异

下面的python代码比较两个文件的不同之处,并将比较的结果输出出来。

 代码如下 复制代码
#version 0
import sys

f1 = open(sys.argv[1], "r")
f2 = open(sys.argv[2], "r")

fileOne = f1.readlines()
fileTwo = f2.readlines()

f1.close()
f2.close()

outFile1 = open(sys.argv[3], "w")
outFile2 = open(sys.argv[4], "w")

for i in fileOne:
        if not i in fileTwo:
                outFile1.write(i)

for i in fileTwo:
        if not i in fileOne:
                outFile2.write(i)

outFile1.close()
outFile2.close()

#first time refacotring
import sys
from operator import attrgetter,itemgetter

#verify inputs
USAGE='''
%s file1 file2 output1 output2
'''% __file__

if len(sys.argv)<5:
        print USAGE
        sys.exit(2)

#open files with try
try:
        f1 = open(sys.argv[1], "r")
        f2 = open(sys.argv[2], "r")
except Exception,e:
        print 'encounter issues %s, while opening in files: %s %s' % (str(e),itemgetter(1)(sys.argv),itemgetter(2)(sys.argv))
        sys.exit(1)

fileOne = f1.readlines()
fileTwo = f2.readlines()

f1.close()
f2.close()

#open files with try
try:
        outFile1 = open(sys.argv[3], "w")
        outFile2 = open(sys.argv[4], "w")
except Exception,e:
        print 'encounter issues %s, while opening out files: %s %s' % (str(e),itemgetter(3)(sys.argv),itemgetter(4)(sys.argv))
        sys.exit(1)

l_minus=lambda x,y:list(set(x)-set(y))

outFile1.write('n'.join(l_minus(fileOne,fileTwo)))
outFile2.write('n'.join(l_minus(fileTwo,fileOne)))

outFile1.close()
outFile2.close()

#2nd time refactoring
import sys
from operator import attrgetter,itemgetter

#verify inputs
USAGE='''
%s file1 file2 output1 output2
'''% __file__

if len(sys.argv)<5:
        print USAGE
        sys.exit(2)

#open files with try
with open(itemgetter(1)(sys.argv), "r") as f1, open(itemgetter(2)(sys.argv), "r") as f2:
        fileOne = f1.readlines()
        fileTwo = f2.readlines()

#list subset
l_minus=lambda x,y:list(set(x)-set(y))
#open files with try
with open(itemgetter(3)(sys.argv), "w") as outFile1, open(itemgetter(4)(sys.argv), "w") as outFile2:
        outFile1.write('n'.join(l_minus(fileOne,fileTwo)))
        outFile2.write('n'.join(l_minus(fileTwo,fileOne)))


Python 程序比较两文件夹差异并读取出来

在客户那边建库,需要把几百个G几十万个文件导入到Oracle里,好不容易导完了才发现中间缺了好几大块数据,约有四分之一吧,郁闷得很。

数据是客户从第三方买的,据客户分析是拷贝过来的时候有部分数据漏掉了,但漏掉的数据又没有什么规律,加之文件夹的嵌套层数很多,查找起来很困难。

客户又从第三方那边拷了一份全的数据,现在对这个问题有两种处理方案,一种是全部重新导一遍,大约得花一周多的时间;另一种方案是把两个数据的差异找出来,把差异的部分追加进去就行了。

项目的时间比较紧张了,只能选第二种方案,可如何把差异的数据找出来呢,试了几个文件夹比较的工具,处理几百兆的数据都吃力,更不必说这么大量的数据和文件了。

后来想了想,觉得Python解决这个问题比较方便,就研究了一下Python里的文件和目录操作,很快就完成了下面的一个脚本,可以很好地解决这个问题。

下面的脚本可以在Python24里很好地运行,在其他版本里没有测试,但用的都是基本功能,应该没有什么问题。

代码里的PathA是全的数据的文件夹,PathB是不全的数据的文件夹,PathC是个新的空目录,脚本执行完后就把PathA中有且pathB中没有的文件和目录都写到PathC里了,还可以保持原来的目录结构,速度和正确性都很令人满意。

因为是急用的代码,所以写得不很简洁,也不是很规范,在此留志,一方面供自己以后参考,另一方面也提供给需要使用Python进行文件和目录操作的兄弟们共同参考。

代码如下:

 代码如下 复制代码
# coding: GB2312

#系统模块
import sys
import os
import shutil
#用于文件查找的模块
from os.path import walk, join, normpath

#这个是完整的文件夹
PathA = "F:FullData"
#这个是缺文件的文件夹
PathB = "F:IncomplData"

#这个是目标文件夹
PathC = "F:DiffData"

#============================================================
#这个函数是用来递归处理PathA,对PathA里的每个文件和文件夹在PathB中找是否有对应的文件或文件夹
#若找不到,则在PathC中创建目录并拷贝文件
#拷贝文件时使用了shutil模块的copy2函数,以保留文件原来的创建时间和最后更新时间
def visit(arg, dirname, names):
    #把目录打印出来,以监视进度
    print dirname
  
    #得到路径名后,把前面的主路径名去掉
    dir=dirname.replace(PathA,"")
  
    dirnameB = os.path.join(PathB,dir)
    dirnameC = os.path.join(PathC,dir)
  
    if os.path.isdir(dirnameB):
        #若PathB里存在对应的文件夹,再逐个文件判断是否存在
        for file in names:
            if os.path.isfile(os.path.join(dirname

时间: 2024-09-22 05:30:26

整理几个用Python写的比较两文件差异的程序【推荐】的相关文章

刚学的java,写了个压缩文件的小程序,一直没有成功

问题描述 刚学的java,写了个压缩文件的小程序,一直没有成功 public class f2Test { public static void main(String[] args){ frame02 f2=new frame02(); } } import java.awt.BorderLayout; import java.awt.Color; import java.awt.Image; import java.awt.Menu; import java.awt.MenuBar; imp

Python中字符集编码和文件读写实现程序

python中默认编码是ASCII,可以通过以下方式设置和获取: import sys print sys.getdefaultencoding() sys.setdefaultencoding('gbk')但直到python重新启动后新的默认编码才会生效,我试了一下,setdefaultencoding总是会出错,没有这个属性.用dir看,确实没有,python版本是2.5,不知道是否被取消了. 使用print来输出时,python将内容传递给系统处理,windows会按照系统默认编码来输出.

python实现类似ftp传输文件的网络程序示例_python

此代码在linux上编写,适用于linux,windows下需要更改几个命令.1.客户端输入IP,端口,可服务器端进行连接,被要求输入用户名和密码进行验证.2.使用独立的模块来验证登录用户(技术有限,不支持客户端创建用户),用户名:ftpuser  密码:userlogin2.客户端登录验证成功后,可使用?或者help查看可使用的命令. ftpserver.py 复制代码 代码如下: #!/usr/bin/env python#-*- coding:utf-8 "Program for ftp

android-关于用python写服务器的问题

问题描述 关于用python写服务器的问题 本人学生,最近在做课程设计,写一个Android的移动应用,需要编写一个服务器,同学推荐我用python来写,不知道好写么,另外写完后连接java写的客户端好连接么?现在初步打算是在手机上装好客户端,然后电脑上运行服务器后,手机连上电脑的WIFI来实现客户端和服务器的连接,这样好么?ps:本人没学过python,如果好写的话就去现学 解决方案 好写,python做一个网站或者web服务,java通过web接口调用.不需要网络连接这些底层的编程知识. 解

解决python写的爬虫程序抓取到的网页是乱码的问题

在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,怎么办? 下面所说的都是针对python2.7 如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码. #chardet 需要下载安装 import chardet #抓取网页html html_1 = urllib2.urlopen(line,timeout=120).read() #print html_1 mychar=chardet.detect(html_1) #print myc

Python写的一个简单监控系统

  这篇文章主要介绍了Python写的一个简单监控系统,本文讲解了详细的编码步骤,并给给出相应的实现代码,需要的朋友可以参考下 市面上有很多开源的监控系统:Cacti.nagios.zabbix.感觉都不符合我的需求,为什么不自己做一个呢 用Python两个小时徒手撸了一个简易的监控系统,给大家分享一下,希望能对大家有所启发 首先数据库建表 建立一个数据库"falcon",建表语句如下: ? 1 2 3 4 5 6 7 8 9 10 11 CREATE TABLE `stat` ( `

tornado-怎样使用Python写一个对请求字段在数据库里检查的接口?

问题描述 怎样使用Python写一个对请求字段在数据库里检查的接口? 前端PHP抛过来几个请求字段,要我用Python+tornado写一个检查这些字段有没有在数据库中. 1.先要在数据库中建个表 2.要检查其中一字段有没有在数据库中,没有就下一步,有就抛个错误出来结束. 3.再检查上一字段+其中一字段有没有在数据库中,没有就下一步,有就抛个错误出来结束. 4.再检查其中一字段有没有在数据库中,没有就把这些字段信息写入表中,有就抛个错误出来结束. 解决方案 http://blog.csdn.ne

【求助】用Python写出一个遍历网站所有url的小工具

问题描述 [求助]用Python写出一个遍历网站所有url的小工具 用Python 怎么写出一个 遍历网站所有url的小工具, 包括首页的url和所有子网页url 不能有重复的url,我自己写的只能遍历一个网页的 首页,子网页的遍历不出来,新人 没币 ,求好心人帮助!!! 解决方案 http://www.cnblogs.com/fnng/p/3576154.htmlhttp://www.oschina.net/code/list_releted_codes?id=25402 解决方案二: htt

soaplib-关于Win7 下 Python写WebService问题

问题描述 关于Win7 下 Python写WebService问题 #!/usr/bin/python -*- coding: utf-8 -*- import soaplib import unittest from soaplib.core.util.wsgi_wrapper import run_twisted #发布服务 from soaplib.core.server import wsgi from soaplib.core.service import DefinitionBase