我有一个大文档,我想建立一个用于单词搜索的索引。(我听说这种类型的数组真的被称为索引)。目前大约需要 10 分钟。有没有快速的方法呢?目前我遍历每个段落,如果我找到一个我以前没有遇到过的单词,我也将它添加到我的单词数组中,以及辅助数组中的段落编号,每当我再次遇到同一个单词时,我添加段落编号到索引。:
associativeArray={chocolate:[10,30,35,200,50001],parsnips:[5,500,100403]}
这需要永远,嗯,5分钟左右。我尝试将此数组转换为字符串,但它太大了,即使在删除停用词之后也无法包含在程序文件中,并且无论如何都需要一段时间才能转换回数组。
除了线性蛮力之外,还有更快的方法来构建文本索引吗?我不是在寻找可以为我做索引的产品,只是最快的已知算法。索引应该准确,不模糊,不需要部分搜索。