我在 Solr 中使用 ExtractingRequestHandler 来获取文档内容并对其进行索引。它适用于所有 Microsoft 文档,但对于 PDF,被提取的内容是空的。我还尝试了使用 curl 的 extractOnly=true,它也只返回空的主体。
我已经在相同的文档上独立使用了 TIKA,并且可以很好地提取内容。不同之处在于,在独立执行时,我使用的是 Tika 附带的 BodyContentHander,而不是 Solr 使用的 SolrContentHandler。有人见过这个吗?
我真的宁愿让 Solr 处理它,而不是我使用 Tika 在 Solr 之外提取内容。