solr - 如何使用 Solr 3.1 配置 Tika 0.9

Question

你能给我用 Solr 3.1 配置 Tika 0.9 的步骤吗

<requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <!-- All the main content goes into "text"... if you need to return
           the extracted text or do highlighting, use a stored field. -->
      <str name="fmap.content">text</str>
      <str name="lowernames">true</str>
      <str name="uprefix">ignored_</str>

      <!-- capture link hrefs but ignore div attributes -->
      <str name="captureAttr">true</str>
      <str name="fmap.a">links</str>
      <str name="fmap.div">ignored_</str>
    </lst>
  </requestHandler>

我在 solrconfig.xml 中使用的这个来配置请帮助我

谢谢，

score 1 · Accepted Answer

假设您在 solr 中安装了 Tika（和依赖项），这应该是您需要做的所有事情。

您是否阅读过ExtractingRequestHandler wiki 页面？它有相当多的信息，并且方便地还有几个使用 curl 的食谱，让您测试它是否正常工作。

solr - 如何使用 Solr 3.1 配置 Tika 0.9

1 回答 1

Related

Reference