0

有人向我展示了一个非常大的列表,用于对长 HTML 文档进行编辑。编辑采用以下格式:

“religious”应该是“religions”
“their”应该是“there”
“you must persistent”应该是“you must be persistent”

文案是手写的;在某些情况下,左侧的“实际”值与文档中的内容不完全匹配。编辑的顺序通常是正确的,但即使这样也不能保证。

手动将这些编辑应用到文档是一项简单但非常庞大的任务。我想尽可能地自动化这个过程,例如通过自动搜索片段。

在像这样的长文档中,我不能只搜索“他们”的所有实例并将它们替换为“那里”。有时“他们的”被正确使用,但不是在某个特定情况下。

换句话说,我正在寻找一个模糊的文本匹配,其中编辑的顺序会影响搜索。

解决此类问题的好方法是什么?我希望有一些现成的开源项目可以以模糊的顺序搜索片段。

4

1 回答 1

1

我不知道任何工具。但我会为两者使用编辑距离:

  1. 对于非精确字符串匹配:可能是 std. Levenstein + swap(即Damerau-Levenstein距离)
  2. 对于非精确序列匹配:这一次可能只有 Match 和 Swap 操作。您可以使用免费(零成本)插入来获取不应编辑的单词。

实施起来应该不难。但是计算复杂度会相当高。我会使用一些启发式方法来跳过无望的比赛。预处理文档和编辑列表中的单词可能会很好:为每个单词获取一组字符,以便在计算完整编辑距离之前进行快速比较)等。

于 2013-08-19T07:17:46.497 回答