0

我在尝试对 PDF 文件使用更新/提取时遇到异常

我的设置是:- Ubuntu Server 11.10 Tomcat 6 Solr 3.5.0.2011.11.22.15.54.38

我可以浏览到 solr/admin OK

我已将所有 contrib/extract 和 apache-solr-cell3.5.0.jar 库放入 tomcat 文件夹 webapps/solr/WEB-INF/lib

我正在使用以下方法调用提取物:-

curl "http://localhost:8080/solr/update/extract?uprefix=attr_&fmap.content=attr_content&commit=true" -F "file=/path/to/my.pdf"

错误是

java.lang.NoClassDefFoundError: org/apache/tika/mime/MimeTypeException
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:264)
at org.apache.solr.core.SolrResourceLoader.findClass(SolrResourceLoader.java:383)
at org.apache.solr.core.SolrCore.createInstance(SolrCore.java:425)
at org.apache.solr.core.SolrCore.createRequestHandler(SolrCore.java:461)
at org.apache.solr.core.RequestHandlers$LazyRequestHandlerWrapper.getWrappedHandler(RequestHandlers.java:248)
at org.apache.solr.core.RequestHandlers$LazyRequestHandlerWrapper.handleRequest(RequestHandlers.java:239)
at org.apache.solr.core.SolrCore.execute(SolrCore.java:1372)

将不胜感激任何指针 - 这个错误似乎出现在其他地方的唯一一次是 Nutch 和缓存的结果。

我尝试在查询字符串和 *.doc 文件中发送 mimetype,但遇到了同样的错误。

4

3 回答 3

3

根据错误消息,MimeTypeException您得到的不是异常:问题是 a NoClassDefFoundError,因为 Solr 无法加载类MimeTypeException

通常此类存在于tika-core.jar.

确保您确实拥有该文件,并检查您是否有指向正确目录的lib语句。solrconfig.xml

于 2011-12-09T11:56:21.797 回答
1

这是由于复制必要的 tika 库(到 tomcat6/webapps/solr/WEB-INF/lib)但将 jar 文件的所有权保留为 ROOT 而不是将它们 chown-ing 到 TOMCAT6 的基本错误。设置正确的权限并重新启动Tomcat后,它开始正常工作

于 2011-12-15T16:57:21.123 回答
1

找到了这个问题的解决方案,我正在使用 SolrJ 来更新我的 pdf 索引。

将 solr 部署到 tomcat 后,我​​没有在 tomcat/webapp 中包含以下库

我得到了所有的延迟加载问题等等我什至尝试让 apache tika ......直到我这样做......

关闭tomcat

\apache-solr-3.5.0\contrib\extraction

将上面的库复制到下面

\apache-tomcat-7.0.26\webapps\solr\WEB-INF\lib

启动tomcat

干杯

于 2012-04-01T16:57:56.007 回答