有人向我展示了一个非常大的列表,用于对长 HTML 文档进行编辑。编辑采用以下格式:
“religious”应该是“religions”
“their”应该是“there”
“you must persistent”应该是“you must be persistent”
文案是手写的;在某些情况下,左侧的“实际”值与文档中的内容不完全匹配。编辑的顺序通常是正确的,但即使这样也不能保证。
手动将这些编辑应用到文档是一项简单但非常庞大的任务。我想尽可能地自动化这个过程,例如通过自动搜索片段。
在像这样的长文档中,我不能只搜索“他们”的所有实例并将它们替换为“那里”。有时“他们的”被正确使用,但不是在某个特定情况下。
换句话说,我正在寻找一个模糊的文本匹配,其中编辑的顺序会影响搜索。
解决此类问题的好方法是什么?我希望有一些现成的开源项目可以以模糊的顺序搜索片段。