我正在尝试在 Apache Solr 中搜索阿拉伯语 PDF。问题似乎是 Tika 以相反的顺序(从左到右)而不是(从右到左)索引 PDF。
我在这里找到了关于这个问题的参考资料:
- Solr 阿拉伯语
- 如何使用 Tika 解析阿拉伯文 pdf
- http://www.linnovate.net/blog/apache-solr-search-hebrew-and-probably-arabic-documents-drupal-pdf-problem-solution
但是,我不知道如何在我的 apache solr 中包含最新版本的 PDFBOX 或 ICU4J。我的Apache Solr Contrib/extraction/lib
文件夹包含pdfbox-1.6.0.jar
和icu4j-4.8.1.1.jar
. 从他们的项目页面中删除提到的文件并用最新的库替换它们是否足以迫使 TIKA 使用它们?
请解释一下,因为我以前没有使用 Java servlet 的经验。谢谢!