0

嗨,我已经尝试使用二进制发行版执行此操作,并自己编译了源代码。也尝试使用 Apache Tomcat 运行它。但是当我使用 pdf 文件进行索引时,我总是收到以下错误。我正在使用 Solr 示例项目中提供的 post.jar。

SimplePostTool: version 1.3
SimplePostTool: POSTing files to http://localhost:8983/solr/update..
SimplePostTool: POSTing file 4538a001.pdf
SimplePostTool: FATAL: Solr returned an error #400 Invalid UTF-8 middle byte 0xe
3 (at char #10, byte #-1)

我也尝试在 Win 7 (JDK 1.7) 和 Centos (1.6) 上运行它。

我在互联网上搜索并在错误跟踪器上找到了 Jetty jar 文件的修补版本,但即使替换了这些文件,问题仍然存在。

我非常感谢帮助,因为我被困在这里,我无法继续执行进一步的任务。

谢谢

4

1 回答 1

3

Solr 更新是一种特定的 XML 格式,因此它拒绝 PDF 文件。

您可以配置将解析 PDF 文件的提取请求处理程序,然后将提取的文本作为更新处理。

请参阅:http ://wiki.apache.org/solr/ExtractingRequestHandler

于 2012-03-29T23:35:07.820 回答