我正在使用 Solr 来索引期刊文章。使用开箱即用的配置,它索引文档的文本,但我希望使用 Grobid 提取作者、标题、附属机构等。我启动了 grobid 并作为服务运行。
我添加了
<str name="tika.config">/path/to/tika-config.xml</str>
到 solrconfig.xml 中 /update/extract 的 requestHandler
tika-config 看起来像:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
<parsers>
<parser class="org.apache.tika.parser.journal.JournalParser">
<mime>application/pdf</mime>
</parser>
</parsers>
</properties>
当我尝试导入文档时遇到 ClassNotFound 异常,但不知道在哪里设置类路径来修复它。