我有一个带有二进制文档(如 PDF)的大型数据库和一个没有 TermFreqVector 的索引,只是“Store.NO,Index.ANALYZED”。我正在尝试使用它来实现短语建议器/预测器。我想搜索单个和多个单词,例如:“where”或“where are”,我希望得到“where are you john”之类的内容。
我很惊讶 LUKE 能够以某种方式从创建的索引中逐词恢复文档文档(我已经检查了它的来源,但是......我仍然不知道没有 TermFreqVector 怎么可能)。有没有人知道这怎么可能?我的建议者有两个选择:
1)使用“不知何故”卢克的机制从我现在拥有的索引中恢复文档。(那将是最好的)。
2) 为短语建议者创建另一个索引。(然而,目前实施的索引大约需要 2-3 天和大约 4-5Gigs)。我已经在网上搜索了解决方案,但其中大多数导致我无法使用的 SOLR。
我已经尝试了一些解决方案,但是......我卡住了。
我将不胜感激任何提示。