3

我在 Solr 中使用 ExtractingRequestHandler 来获取文档内容并对其进行索引。它适用于所有 Microsoft 文档,但对于 PDF,被提取的内容是空的。我还尝试了使用 curl 的 extractOnly=true,它也只返回空的主体。

我已经在相同的文档上独立使用了 TIKA,并且可以很好地提取内容。不同之处在于,在独立执行时,我使用的是 Tika 附带的 BodyContentHander,而不是 Solr 使用的 SolrContentHandler。有人见过这个吗?

我真的宁愿让 Solr 处理它,而不是我使用 Tika 在 Solr 之外提取内容。

4

1 回答 1

1

我只是在解决这个问题之前处理了几个小时——我以非二进制模式打开我的 PDF,并将它们提供给 solr,直到文件中的第一个 EOF 字符。Solr 仍会从文件中提取元数据(正如它出现在 PDF 的标题中),但会在其响应中返回一个空的正文标记。

这可能不适用于原始海报,但它可能真的可以帮助其他人避免浪费他们的生命。

于 2011-10-26T20:59:44.927 回答