1

我正在使用 solr 4 和提取请求处理程序来索引 pdf 文件,效果很好。pdf 中的文本存储在索引中,以便显示/提供带有突出显示的文本。

问题是,存储文本的布局在 solrs 存储的字段中丢失了。例如,如果 pdf 内容是:

 left text                       right text
 2nd. line leftr text            text at the right side

....存储字段的内容如下所示:

 left text right text
 2nd. line leftr text text at the right side

另一方面:如果我将 pdf 提取为文本(使用 linux 工具 pdftotext),然后使用提取请求 hendler 索引文本文件(而不是 pdf)-> 存储的字段包含/包含布局。所以被剪断的文本(以及 solr 中存储字段的内容)看起来像这样:

 left text                       right text
 2nd. line leftr text            text at the right side

我的问题:有没有办法在索引 pdf 时也保持布局,而不仅仅是文本文件?

4

1 回答 1

0

Apache Tika 将从 pdf 中提取所有文本并将内容索引为文本文件。
但是,您可以始终将 pdf 转换为文本并获取它的索引,而不是使用带有 Tika 的 ExtractHandler,这样您就可以拥有带有布局的文本并在其上启用搜索。
您还可以检查是否可以使用 PDFBox 更改 Apache Tika 的默认处理以使用其他保存文本布局的转换器。

于 2012-12-08T13:02:06.113 回答