0

我想在 Solr 中索引文件。我已经用 PHP 制作了一个“输出脚本”,但是我的项目负责人给了我显示找到的文本的页码的任务。

所以: - 我正在寻找“Foo”这个词。- Solr 返回结果以及突出显示的文本。- 现在我想知道这个突出显示的文本在哪个页面上,以便找到它。

这些文件是 *.pdf 文件。

我想到的一种解决方案是在不同字段中导入 PDF 文件的文本?或者也许在这个名为“内容”的多值字段中。

也许是这样的:

Json:
    content:
        1: "page one text",
        2: "page two text"

等等?

这可能吗?或者有没有更好的方法来找到这些信息?谢谢你的帮助!:-)

4

1 回答 1

0

您需要为每个 PDF 文件的每一页创建一个单独的 Solr 文档。如果您希望每个文件只返回一个结果,则可以使用FieldCollapsing将来自同一 PDF 文件的所有结果分组。

于 2013-04-06T07:45:58.600 回答