drupal - 用于阿拉伯语 PDF 的 Solr

Question

我正在尝试在 Apache Solr 中搜索阿拉伯语 PDF。问题似乎是 Tika 以相反的顺序（从左到右）而不是（从右到左）索引 PDF。

我在这里找到了关于这个问题的参考资料：

但是，我不知道如何在我的 apache solr 中包含最新版本的 PDFBOX 或 ICU4J。我的Apache Solr Contrib/extraction/lib文件夹包含pdfbox-1.6.0.jar和icu4j-4.8.1.1.jar. 从他们的项目页面中删除提到的文件并用最新的库替换它们是否足以迫使 TIKA 使用它们？

请解释一下，因为我以前没有使用 Java servlet 的经验。谢谢！

score 0 · Accepted Answer

从您问题的标签中，我假设您正在使用 Drupal 来连接 Apache Solr。当您发送二进制文档时，Tika 可以在 Solr 中运行，或者您可以在将文档发送到 Solr 之前使用它。Drupal Solr 附件模块有一个“Tika（本地java应用程序）”的设置。在您提供的第二个链接中，他们修补了 Solr 附件模块以使用 PDFBox 而不是 Tika 来解析二进制文件，然后再将其发送到 Solr。如果您不使用 Drupal，您应该尝试类似的方法。

drupal - 用于阿拉伯语 PDF 的 Solr

1 回答 1

Related

Reference