4

我正在尝试让 Solr 与 Tika 一起工作,这样我就可以在我的 Drupal 网站中索引 Word 和 PDF 文档。

我查看了Wiki 页面和此页面,它们表明在 solrconfig.xml 中添加了 requestHandler。

我这样做了,现在 Solr 抛出了一个异常:

org.apache.solr.common.SolrException:加载类“org.apache.solr.handler.extraction.ExtractingRequestHandler”时出错

我进行了一些搜索,发现其他人遇到了这个问题,但没有简单的解决方法。我在Windows Server 2003上使用Solr 3.4.0。关于如何解决这个问题的任何想法?

附带说明一下,我已经让 Drupal 使用 Solr 进行搜索,这很有效。但是我不能让 Solr 索引 PDF 和 Word 文档。我确信这是大多数网站的共同需求,但我已经为此花费了数天时间,我无法相信它的文档记录很差,而且很难弄清楚。

4

1 回答 1

4

如果您使用 jetty 设置从示例目录运行 Solr,它应该按原样运行而无需任何更改。

但是,对于多核设置,您需要将 jar 复制到 lib 目录中。

如果您检查示例文件夹中的 solrconfig,它包括 solr 单元和提取库的 jar。

solrconfig.xml -

取消注释此行以包含所有 lib jar -

<lib dir="./lib" />

将这些文件夹中的 jar 复制到您的多核 lib 文件夹中。这些罐子用于提取。(Apache pdfbox、poi、fontbox 等)

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" />

当您启动 Solr 时,您应该会看到所有已加载的 jar。应该让你工作。

于 2011-10-27T16:41:41.903 回答