我必须从大型 PDF 文档中构建某种“字符串目录”,以便更快地搜索字符串/子字符串。
该机制应该像这样工作:PDF 扫描仪扫描 PDF 文档中的字符串,并在我的目录中调用回调方法来索引该字符串。
现在,应该使用什么技术来构建这样的目录?我听说过: - 后缀树 - 广义后缀树 - 后缀数组
我主要倾向于广义后缀树。那我是对还是错?我猜“普通”后缀树只适用于索引单个字符串。
但是后缀数组呢?那里有通用的后缀数组吗?
我在 C/C++ 中发现了很多用于从字符串构建后缀树的代码,但没有用于构建通用后缀树的代码!