pdf - Solr ExtractingRequestHandler 为 pdf 文档提供空内容

Question

我在 Solr 中使用 ExtractingRequestHandler 来获取文档内容并对其进行索引。它适用于所有 Microsoft 文档，但对于 PDF，被提取的内容是空的。我还尝试了使用 curl 的 extractOnly=true，它也只返回空的主体。

我已经在相同的文档上独立使用了 TIKA，并且可以很好地提取内容。不同之处在于，在独立执行时，我使用的是 Tika 附带的 BodyContentHander，而不是 Solr 使用的 SolrContentHandler。有人见过这个吗？

我真的宁愿让 Solr 处理它，而不是我使用 Tika 在 Solr 之外提取内容。

score 1 · Accepted Answer

我只是在解决这个问题之前处理了几个小时——我以非二进制模式打开我的 PDF，并将它们提供给 solr，直到文件中的第一个 EOF 字符。Solr 仍会从文件中提取元数据（正如它出现在 PDF 的标题中），但会在其响应中返回一个空的正文标记。

这可能不适用于原始海报，但它可能真的可以帮助其他人避免浪费他们的生命。

1 回答 1