我正在尝试做一些模糊匹配(在 R 中),并想制定一些关于允许多少连续变化的规则。例如,如果我使用 Levenshtein 距离并且距离大于 2,我想排除这 2 个变体彼此相邻发生的任何匹配项。
一个例子:
如果我们试图匹配字符串“James Madison”,
-“Jame Madisan”会产生距离=2的匹配
-“Jans Madison”也将具有距离=2,但不会产生命中,因为 2 个连续变化(“n”需要更改为“m”,并且必须在“s”中的“s”之前插入“e”詹姆士”)
我正在尝试做一些模糊匹配(在 R 中),并想制定一些关于允许多少连续变化的规则。例如,如果我使用 Levenshtein 距离并且距离大于 2,我想排除这 2 个变体彼此相邻发生的任何匹配项。
一个例子:
如果我们试图匹配字符串“James Madison”,
-“Jame Madisan”会产生距离=2的匹配
-“Jans Madison”也将具有距离=2,但不会产生命中,因为 2 个连续变化(“n”需要更改为“m”,并且必须在“s”中的“s”之前插入“e”詹姆士”)