我有一本 txt 格式的大书的两个版本,我想比较它们以发现版本之间的显着变化,忽略小的单个字符差异。
有很多 diffing 工具可以忽略空格差异,但我也想忽略小的错别字和单个或几个字符的差异。例如,该书的一个版本有leige
数百次重复的拼写错误,并且在下一个版本中将其更正为liege
. 一些专有名词也改变了它们的拼写。(我可以为每个拼写错误定制解决方法,但想要更通用的东西)
因为我只关心更重要的多词差异,所以我真正想要的是设置一个过滤器,它忽略一行的更改,除非 Levenshtein 编辑距离高于某个阈值。
环顾我发现的所有 diff/comparisons 工具似乎都考虑到了代码,因此它们缺少任何忽略小文本更改的功能。Google 的 diff_match_patch 库非常适合区分纯文本和忽略空格更改(此处为演示),但似乎没有开箱即用的方式来忽略单个字符的非空格差异。
tl;博士; 是否有任何差异工具可以比较文本文档但过滤掉小的单个字符非空白差异?