文件内容差异对比方法

本节介绍如何通过 difflib 模块实现文件内容差异对比。difflib 作为 Python 的标准库模块,无需安装,作用是对比文本之间的差异,且支持输出可读性比较强的 HTML 文档,与 Linux 下的 diff 命令相似。我们可以使用 difflib 对比代码、配置文件的差别,在版本控制方面是非常有用。Python 2.3 或更高版本默认自带 difflib 模块,无需额外安装,我们先通过一个简单的示例进行了解。

示例1:两个字符串的差异对比

本示例通过使用 difflib 模块实现两个字符串的差异对比,然后以版本控制风格进行输出。

simple1.py
#!/usr/bin/python
import difflib
text1 = """text1:    #定义字符串1
This module provides classes and functions for comparing sequences.
including HTML and context and unified diffs.
difflib document v7.4
add string
"""

text1_lines = text1.splitlines()    #以行进行分隔,以便进行对比

text2 = """text2:    #定义字符串2
This module provides classes and functions for Comparing sequences.
including HTML and context and unified diffs.
difflib document v7.5"""

text2_lines = text2.splitlines()

d = difflib.Differ()    #创建Differ()对象
diff = d.compare(text1_lines, text2_lines)    # 采用compare方法对字符串进行比较
print('\n'.join(list(diff)))

本示例采用 Differ() 类对两个字符串进行比较,另外 difflib 的 SequenceMatcher() 类支持任意类型序列的比较,HtmlDiff() 类支持将比较结果输出为 HTML 格式,示例运行结果如图2-1所示。

image 2023 12 07 11 19 21 182
Figure 1. 图2-1 示例运行结果

为方便大家理解差异关系符号,表2-1对各符号含义进行说明。

image 2023 12 07 11 20 03 774
Figure 2. 表2-1 符号含义说明

生成美观的对比 HTML 格式文档

采用 HtmlDiff() 类的 make_file() 方法就可以生成美观的 HTML 文档,对示例1中代码按以下进行修改:

d = difflib.Differ()
diff = d.compare(text1_lines, text2_lines)
print '\n'.join(list(diff))

替换成:

d = difflib.HtmlDiff()
print d.make_file(text1_lines, text2_lines)

将新文件命名为 simple2.py,运行 # python simple2.py >diff.html,再使用浏览器打开 diff.html 文件,结果如图示2-2所示,HTML文档包括了行号、差异标志、图例等信息,可读性增强了许多。

image 2023 12 07 11 24 25 976
Figure 3. 图2-2 在浏览器中打开diff.html文件

示例2:对比 Nginx 配置文件差异

当我们维护多个 Nginx 配置时,时常会对比不同版本配置文件的差异,使运维人员更加清晰地了解不同版本迭代后的更新项,实现的思路是读取两个需对比的配置文件,再以换行符作为分隔符,调用 difflib.HtmlDiff() 生成 HTML 格式的差异文档。实现代码如下:

difflib/simple3.py
#!/usr/bin/python
import difflib
import sys

try:
    textfile1=sys.argv[1]    #第一个配置文件路径参数
    textfile2=sys.argv[2]    #第二个配置文件路径参数
except Exception as e:
    print ("Error:"+str(e))
    print ("Usage: simple3.py filename1 filename2")
    sys.exit()

def readfile(filename):    #文件读取分隔函数
    try:
    fileHandle = open (filename, 'rb' )
    text=fileHandle.read().splitlines()    #读取后以行进行分隔
    fileHandle.close()
    return text
    except IOError as error:
    print('Read file Error:'+str(error))
    sys.exit()

if textfile1=="" or textfile2=="":
    print ("Usage: simple3.py filename1 filename2")
    sys.exit()

text1_lines = readfile(textfile1)    #调用readfile函数,获取分隔后的字符串
text2_lines = readfile(textfile2)

d = difflib.HtmlDiff()    #创建HtmlDiff()类对象
print d.make_file(text1_lines, text2_lines)    #通过make_file方法输出HTML格式的比对结果运行如下代码:
# python simple3.py nginx.conf.v1 nginx.conf.v2 > diff.html

从图2-3中可以看出 nginx.conf.v1 与 nginx.conf.v2 配置文件存在的差异。

image 2023 12 07 11 30 43 621
Figure 4. 图2-3 nginx.conf.v1与nginx.conf.v2配置文件对比结果