我正在使用 solr 4 和提取请求处理程序来索引 pdf 文件,效果很好。pdf 中的文本存储在索引中,以便显示/提供带有突出显示的文本。
问题是,存储文本的布局在 solrs 存储的字段中丢失了。例如,如果 pdf 内容是:
left text right text
2nd. line leftr text text at the right side
....存储字段的内容如下所示:
left text right text
2nd. line leftr text text at the right side
另一方面:如果我将 pdf 提取为文本(使用 linux 工具 pdftotext),然后使用提取请求 hendler 索引文本文件(而不是 pdf)-> 存储的字段包含/包含布局。所以被剪断的文本(以及 solr 中存储字段的内容)看起来像这样:
left text right text
2nd. line leftr text text at the right side
我的问题:有没有办法在索引 pdf 时也保持布局,而不仅仅是文本文件?