pdf - Solr：使用 tika / 提取请求处理程序从提取的 pdf 存储文本布局

Question

我正在使用 solr 4 和提取请求处理程序来索引 pdf 文件，效果很好。pdf 中的文本存储在索引中，以便显示/提供带有突出显示的文本。

问题是，存储文本的布局在 solrs 存储的字段中丢失了。例如，如果 pdf 内容是：

 left text                       right text
 2nd. line leftr text            text at the right side

....存储字段的内容如下所示：

 left text right text
 2nd. line leftr text text at the right side

另一方面：如果我将 pdf 提取为文本（使用 linux 工具 pdftotext），然后使用提取请求 hendler 索引文本文件（而不是 pdf）-> 存储的字段包含/包含布局。所以被剪断的文本（以及 solr 中存储字段的内容）看起来像这样：

 left text                       right text
 2nd. line leftr text            text at the right side

我的问题：有没有办法在索引 pdf 时也保持布局，而不仅仅是文本文件？

score 0 · Accepted Answer

Apache Tika 将从 pdf 中提取所有文本并将内容索引为文本文件。
但是，您可以始终将 pdf 转换为文本并获取它的索引，而不是使用带有 Tika 的 ExtractHandler，这样您就可以拥有带有布局的文本并在其上启用搜索。
您还可以检查是否可以使用 PDFBox 更改 Apache Tika 的默认处理以使用其他保存文本布局的转换器。

pdf - Solr：使用 tika / 提取请求处理程序从提取的 pdf 存储文本布局

1 回答 1

Related

Reference