我正在使用google-diff-match-patch来比较自然语言中的纯文本。
如何让 google-diff-match-patch 忽略某些字符?(一些我不在乎的微小差异。)
例如,给定 text1:
give me a cup of bean-milk. Thanks.
和文本2:
please give mom a cup of bean milk! Thank you.
(请注意,“谢谢”之前有两个空格字符。)
google-diff-match-patch 输出如下内容:
[please] give m(e)[om] a cup of bean(-)[ ]milk(.)[!] Thank(s)[ you].
似乎 google-diff-match-patch 只忽略不同数量的空格。
我怎样才能告诉 google-diff-match-patch 也忽略像这样的字符[-.!]
?
预期的结果是
[please] give m(e)[om] a cup of bean-milk. Thank(s)[ you].
谢谢。