0


大家好,


我想知道是否有人可以帮我解决这个问题。我是 solr 的新手,我正在尝试索引二进制文件,例如 .pdf、.docx ... 问题是我的 solr 配置索引文件但是当我运行查询时它不显示驻留在文件中的内容.


我使用的是默认的 schema.xml。

对于 data-config.xml 我使用这个配置:

<dataConfig>
 <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"
                     url="jdbc:mysql://localhost:3306/db" 
                     user="Iam" batchSize="-1"/>
 <document>
     <entity name="data" datasource="mysql" recursive="true"
          query="select id, post, guid from posts'"
          >


        <field column="guid" name="content"/>
     </entity>
 </document>
</dataConfig>


在 solrconfig.xml 中:

 <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">data-config.xml</str>
    </lst>
  </requestHandler>

<requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="lowernames">true</str>
      <str name="uprefix">ignored_</str>
 </lst>
  </requestHandler>


我希望有人能给我一些建议。先谢谢了。

4

1 回答 1

0

如果您使用 DIH,您可以使用 Tika 集成来索引丰富的内容文档,这些文档可以作为 blob 字段保存在文件系统或数据库中。

Solr 已经通过TikaEntityProcessor提供了 Tika 和 DIH 的集成

集成 - SOLR-1358
斑点处理 - SOLR-1737

于 2013-03-07T03:55:26.877 回答