我正在使用Solr 6.2.1和 ExtractingRequestHandler(已包含在 Solr 6.2.1 中)来索引 pdf 和 word 文档。所有文档(pdf 和 word)都使用元数据(标题、日期、cp_revision、公司...)进行索引,但内容字段始终为空。
根据文档,我应该有一个非空的内容字段:“Tika 将所有提取的文本添加到内容字段。”
有谁知道为什么内容字段是空的?根据这篇帖子的回答,这可能是因为我以非二进制模式打开文件,但如何以二进制模式打开文件?
这是我的solrconfig.xml文件:
<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />
...
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="xpath">/xhtml:html/xhtml:body/descendant:node()</str>
<str name="capture">content</str>
<str name="fmap.meta">attr_meta_</str>
<str name="uprefix">attr_</str>
<str name="lowernames">true</str>
</lst>
</requestHandler>