我正在尝试使用 ukkonen 的后缀树来比较文档。
在这一点上,我关心两件事:
首先,我尝试为一个文档生成后缀树,然后使用该后缀树来查找该文档中的所有常见子字符串。
接下来是识别两个文档之间的所有公共子字符串。
我能够为基于http://marknelson.us/1996/08/01/suffix-trees/的文档生成 ukkonen 后缀树。并搜索给定的子字符串。但是我仍然找不到一种方法来识别给定文档中的所有公共子字符串。你能告诉我一种方法吗?我正在使用Visual C++。
我们可以使用 ukkonen 的算法来比较两个文档并识别它们之间的所有公共子字符串吗?如果是这样,请逐步解释。
Ukkonen's suffix tree algorithm in plain English对Ukkonen's suffix tree有很好的解释吗?