python - Python Difflib Deltas 和比较 Ndiff

Question

我想做一些我相信变更控制系统所做的事情，它们比较两个文件，并在每次文件更改时保存一个小差异。我一直在阅读这个页面：http ://docs.python.org/library/difflib.html ，它显然没有陷入我的脑海。

我试图在下面显示的一个有点简单的程序中重新创建它，但我似乎缺少的是 Delta 包含的内容至少与原始文件一样多，甚至更多。

难道不能只做纯粹的改变吗？我问的原因很明显 - 节省磁盘空间。
我可以每次只保存整个代码块，但最好保存一次当前代码，然后保存更改的小差异。

我还在试图弄清楚为什么许多 difflib 函数返回一个生成器而不是一个列表，那里有什么优势？

difflib 对我有用吗 - 还是我需要找到一个更专业、功能更多的软件包？

# Python Difflib demo 
# Author: Neal Walters 
# loosely based on http://ahlawat.net/wordpress/?p=371
# 01/17/2011 

# build the files here - later we will just read the files probably 
file1Contents="""
for j = 1 to 10: 
   print "ABC"
   print "DEF" 
   print "HIJ"
   print "JKL"
   print "Hello World"
   print "j=" + j 
   print "XYZ"
"""

file2Contents = """
for j = 1 to 10: 
   print "ABC"
   print "DEF" 
   print "HIJ"
   print "JKL"
   print "Hello World"
   print "XYZ"
print "The end"
"""

filename1 = "diff_file1.txt" 
filename2 = "diff_file2.txt" 

file1 = open(filename1,"w") 
file2 = open(filename2,"w") 

file1.write(file1Contents) 
file2.write(file2Contents) 

file1.close()
file2.close() 
#end of file build 

lines1 = open(filename1, "r").readlines()
lines2 = open(filename2, "r").readlines()

import difflib

print "\n FILE 1 \n" 
for line in lines1:
  print line 

print "\n FILE 2 \n" 
for line in lines2: 
  print line 

diffSequence = difflib.ndiff(lines1, lines2) 

print "\n ----- SHOW DIFF ----- \n" 
for i, line in enumerate(diffSequence):
    print line

diffObj = difflib.Differ() 
deltaSequence = diffObj.compare(lines1, lines2) 
deltaList = list(deltaSequence) 

print "\n ----- SHOW DELTALIST ----- \n" 
for i, line in enumerate(deltaList):
    print line



#let's suppose we store just the diffSequence in the database 
#then we want to take the current file (file2) and recreate the original (file1) from it
#by backward applying the diff 

restoredFile1Lines = difflib.restore(diffSequence,1)  # 1 indicates file1 of 2 used to create the diff 

restoreFileList = list(restoredFile1Lines)

print "\n ----- SHOW REBUILD OF FILE1 ----- \n" 
# this is not showing anything! 
for i, line in enumerate(restoreFileList): 
    print line

谢谢！

更新：

contextDiffSeq = difflib.context_diff(lines1, lines2) 
contextDiffList = list(contextDiffSeq) 

print "\n ----- SHOW CONTEXTDIFF ----- \n" 
for i, line in enumerate(contextDiffList):
    print line

----- 显示上下文 -----

* 5,9 **
 print "HIJ"

 print "JKL"

 print "Hello World"
打印“j=”+j

打印“XYZ”

--- 5,9 ----
 print "HIJ"

 print "JKL"

 print "Hello World"

 print "XYZ"
打印“结束”

另一个更新：

在 Panvalet an Librarian 的旧时代，大型机的源代码管理工具，您可以创建这样的变更集：

++ADD 9
   print "j=" + j

这只是意味着在第 9 行之后添加一行（或多行）。然后是 ++REPLACE 或 ++UPDATE 之类的单词。 http://www4.hawaii.gov/dags/icsd/ppmo/Stds_Web_Pages/pdf/it110401.pdf

score 5 · Accepted Answer

我还在试图弄清楚为什么许多 difflib 函数返回一个生成器而不是一个列表，那里有什么优势？

好吧，考虑一下 - 如果你比较文件，这些文件在理论上（并且在实践中）会很大 - 例如，将 delta 作为列表返回意味着将完整的数据读入内存，即这不是一件聪明的事。

至于只返回差异，那么，使用生成器还有另一个优点 - 只需遍历 delta 并保留您感兴趣的任何行。

如果您阅读difflib 文档中的 Differ - style deltas，您会看到这样一段文字：

Each line of a Differ delta begins with a two-letter code:
Code    Meaning
'- '    line unique to sequence 1
'+ '    line unique to sequence 2
'  '    line common to both sequences
'? '    line not present in either input sequence

因此，如果您只想要差异，您可以使用str.startswith轻松过滤掉它们

您还可以使用difflib.context_diff来获取仅显示更改的紧凑增量。

score 4 · Accepted Answer

差异必须包含足够的信息才能将一个版本修补到另一个版本中，所以是的，对于您对非常小的文档进行单行更改的实验，存储整个文档可能会更便宜。

库函数返回迭代器，以便在内存紧张或只需要查看部分结果序列的客户端上更容易。在 Python 中没问题，因为每个迭代器都可以转换为具有非常短list(an_iterator)表达式的列表。

大多数差异是在文本行上完成的，但可以逐个字符地进行，并difflib做到这一点。看一下中Differ的对象类difflib。

各地的示例都使用人性化的输出，但差异在内部以更紧凑、计算机友好的方式进行管理。此外，差异通常包含冗余信息（如要删除的行的文本），以使修补和合并更改安全。如果您对此感到满意，可以通过您自己的代码删除冗余。

我刚刚读到difflib选择了最不意外的优化，这是我不会反对的。有一些众所周知的算法可以快速产生最小的更改集。

我曾经在大约 1250 行 Java ( JRCS )中编写了一个通用差异引擎以及一种最佳算法。它适用于可以比较是否相等的任何元素序列。如果您想构建自己的解决方案，我认为 JRCS 的翻译/重新实现应该不超过 300 行 Python。

处理产生的输出difflib以使其更紧凑也是一种选择。这是一个包含三个更改（添加、更改和删除）的小文件的示例：

---  
+++  
@@ -7,0 +7,1 @@
+aaaaa
@@ -9,1 +10,1 @@
-c= 0
+c= 1
@@ -15,1 +16,0 @@
-    m = re.match(code_re, text)

补丁所说的内容可以很容易地浓缩为：

+7,1 
aaaaa
-9,1 
+10,1
c= 1
-15,1

对于您自己的示例，压缩输出将是：

-8,1
+9,1
print "The end"

为了安全起见，为必须插入的行保留前导标记 ('>') 可能是个好主意。

-8,1
+9,1
>print "The end"

这更接近您的需要吗？

这是一个简单的压缩函数。您必须编写自己的代码才能以该格式应用补丁，但它应该很简单。

def compact_a_unidiff(s):
    s = [l for l in s if l[0] in ('+','@')]
    result = []
    for l in s:
        if l.startswith('++'):
            continue
        elif l.startswith('+'):
            result.append('>'+ l[1:])
        else:
            del_cmd, add_cmd = l[3:-3].split()
            del_pair, add_pair = (c.split(',') for c in (del_cmd,add_cmd))
            if del_pair[1]  != '0':
                result.append(del_cmd)
            if add_pair[1] != '0':
                result.append(add_cmd)
    return result

score 1 · Accepted Answer

如果您只想进行更改，则想使用统一或上下文差异。您会看到更大的文件，因为它包含它们共有的行。

返回一个生成器的好处是整个东西不需要一次保存在内存中。这对于区分非常大的文件很有用。

python - Python Difflib Deltas 和比较 Ndiff

3 回答 3

Related

Reference