我对 ElasticSearch 比较陌生。我将它用作 pdf 文档的搜索平台。我将 PDF 分解为文本页面,并将每一个作为 elasticSearch 记录输入,其中包含相应的页面 ID、父信息等。
我发现困难是将给定查询不仅与 ES 中的单个文档匹配,而且使其与具有相同父 ID 的任何文档匹配。因此,如果搜索了两个术语,如果这些术语存在于实际 PDF 文档的第 1 页和第 7 页(ES 中的 2 个单独条目),我想匹配这个结果。
本质上,我的目标是能够搜索单个 PDF 的多个页面,匹配发生在 PDF 中的任何文档页面上,并为搜索结果返回匹配的 PDF 文档列表,而不是匹配“页面” "