3

我正在尝试扫描目录中的所有 pdf/doc 文件。这工作正常,我能够扫描所有文档。

我要做的下一件事也是在搜索结果中接收文件的文件名。但是文件名永远不会出现。我尝试了几件事,但文档对于如何做到这一点并不是很有帮助。

我正在使用 solr 发行版中的 solr 配置:apache-solr-3.1.0/example/example-DIH/solr/tika/conf

这是我的数据配置:

<dataConfig>
  <dataSource type="BinFileDataSource" name="bin"/>
  <document>
    <entity name="f" processor="FileListEntityProcessor" recursive="true" 
            rootEntity="false" dataSource="null" baseDir="C:/solrtestsmall"
            fileName=".*\.(DOC)|(PDF)|(pdf)|(doc)" onError="skip">

      <entity name="tika-test" processor="TikaEntityProcessor" 
              url="${f.fileAbsolutePath}" format="text" dataSource="bin" 
              onError="skip">
        <field column="Author" name="author" meta="true"/>
        <field column="title" name="title" meta="true"/>
        <field column="text" name="text"/>
      </entity>

      <field column="fileName" name="fileName"/>
    </entity>
  </document>
</dataConfig>

我对如何正确配置它的方式以及我可以找到特定文档的任何其他地方感兴趣。

4

1 回答 1

3

您应该在列中使用文件而不是文件名

<field column="file" name="fileName"/>

不要忘记将“文件名”添加到字段部分的 schema.xml。

<field name="fileName" type="string" indexed="true" stored="true" />
于 2011-05-19T08:00:49.340 回答