我最近一直在了解不同的字符串搜索算法,例如Knuth-Morris-Pratt和Boyer Moore 算法,并且在这样做的过程中,我了解了一些关于它们的一些细节,我无法消化这些细节,或者对这些算法有了自己的理解,但是仍然不确定它们的正确性。
问题:
- 这个问题的最佳答案表明,如果字母表很小,KMP 效果很好。为什么会出现这种情况,为什么 Boyer 的算法在这种情况下不能比 KMP 表现得更好?
- KMP 和 Boyer 算法性能最差的每个例子是什么?我已经发现,对于像这样的例子 Boyer 会给出最差的性能。那正确吗?
文本=' AAAA....13 A'S '
模式='AAA'
3.我能够理解 KMP 的正确前缀方面,并且能够消化这样一个事实,即它在跳过文本的已经匹配部分时不会跳过可能的匹配项,但即使我确实得到了Bad Character Heuristic背后的直觉 和Good Suffix Heuristic of Boyer 算法,它专注于跳过字符,以便模式与未来可能的匹配一致,我仍然无法让自己理解这两种启发式如何保证跳过的字符无论如何都不会匹配。
给定文档第 2 页的第 4 段也谈到了相同的内容,即我们可以跳过文本的某些字符而不看它们。为什么我们可以忽略它们?
- 用 Layman 的语言,我们可以声称 KMP 和 Boyer 算法之间的区别在于 KMP 通过跳过已经匹配的字符来工作,而 Boyer 通过跳过不会产生任何区别的字符来工作,因为文本上窗口的当前位置已经有一个未匹配项.