我想在 Lucene 中索引 100 万个 html 文档。我需要在一个 Lucene 文档中索引几个 html 文件。最近,我想在搜索响应中知道原始 html 文档。
所以,例如我有:
1.home.html
2.history.html
3.about.html
4.home2.html
...
我想在同一个 Lucene 文档中索引 1、2 和 3。然后,如果我搜索任何我想知道原始文档的文本(家庭、历史或关于)。
我一直在互联网上搜索,我发现了Lucene payload。所以我一直在考虑在所有术语中索引原始文档的 url。这是一个好的解决方案吗?表现会好吗?
非常感谢您的帮助。