1

我有一本 txt 格式的大书的两个版本,我想比较它们以发现版本之间的显着变化,忽略小的单个字符差异。

有很多 diffing 工具可以忽略空格差异,但我也想忽略小的错别字和单个或几个字符的差异。例如,该书的一个版本有leige数百次重复的拼写错误,并且在下一个版本中将其更正为liege. 一些专有名词也改变了它们的拼写。(我可以为每个拼写错误定制解决方法,但想要更通用的东西)

因为我只关心更重要的多词差异,所以我真正想要的是设置一个过滤器,它忽略一行的更改,除非 Levenshtein 编辑距离高于某个阈值。

环顾我发现的所有 diff/comparisons 工具似乎都考虑到了代码,因此它们缺少任何忽略小文本更改的功能。Google 的 diff_match_patch 库非常适合区分纯文本和忽略空格更改(此处为演示),但似乎没有开箱即用的方式来忽略单个字符的非空格差异。

tl;博士; 是否有任何差异工具可以比较文本文档但过滤掉小的单个字符非空白差异?

4

1 回答 1

1

在 Beyond compare 中,您可以定义“替换”。

示例:差异标记为红色: 差异标记为红色

然后你可以去 Session->Session Settings 并设置一个替换: 定义替换

甚至更简单:标记文本并立即定义替换: 在此处输入图像描述 在此处输入图像描述

现在差异不重要并标记为蓝色: 在此处输入图像描述

只需单击一下,您就可以忽略不重要的差异(屏幕截图中的红色箭头)。

技术备注:我使用 BC4 和专业版。

于 2019-01-19T22:12:16.033 回答