suffix-tree - 字符串索引和后缀树

翻译自：https://stackoverflow.com/questions/13270703 2012-11-07T13:22:41.113

378 次

我必须从大型 PDF 文档中构建某种“字符串目录”，以便更快地搜索字符串/子字符串。

该机制应该像这样工作：PDF 扫描仪扫描 PDF 文档中的字符串，并在我的目录中调用回调方法来索引该字符串。

现在，应该使用什么技术来构建这样的目录？我听说过： - 后缀树 - 广义后缀树 - 后缀数组

我主要倾向于广义后缀树。那我是对还是错？我猜“普通”后缀树只适用于索引单个字符串。

但是后缀数组呢？那里有通用的后缀数组吗？

我在 C/C++ 中发现了很多用于从字符串构建后缀树的代码，但没有用于构建通用后缀树的代码！

0 回答 0