drupal - 让 ExtractingRequestHandler 在 Solr 中工作

Question

我正在尝试让 Solr 与 Tika 一起工作，这样我就可以在我的 Drupal 网站中索引 Word 和 PDF 文档。

我查看了Wiki 页面和此页面，它们表明在 solrconfig.xml 中添加了 requestHandler。

我这样做了，现在 Solr 抛出了一个异常：

org.apache.solr.common.SolrException：加载类“org.apache.solr.handler.extraction.ExtractingRequestHandler”时出错

我进行了一些搜索，发现其他人遇到了这个问题，但没有简单的解决方法。我在Windows Server 2003上使用Solr 3.4.0。关于如何解决这个问题的任何想法？

附带说明一下，我已经让 Drupal 使用 Solr 进行搜索，这很有效。但是我不能让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的共同需求，但我已经为此花费了数天时间，我无法相信它的文档记录很差，而且很难弄清楚。

score 4 · Accepted Answer

如果您使用 jetty 设置从示例目录运行 Solr，它应该按原样运行而无需任何更改。

如果您检查示例文件夹中的 solrconfig，它包括 solr 单元和提取库的 jar。

solrconfig.xml -

取消注释此行以包含所有 lib jar -

<lib dir="./lib" />

将这些文件夹中的 jar 复制到您的多核 lib 文件夹中。这些罐子用于提取。（Apache pdfbox、poi、fontbox 等）

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" />

当您启动 Solr 时，您应该会看到所有已加载的 jar。应该让你工作。

1 回答 1