2

我有一个 fileSystem 数据源,并且我已经创建了一个 dataconfig 来运行 DIH,dataconfig 是

<?xml 版本="1.0" 编码="UTF-8"?>
<数据配置>
    <dataSource type="FileDataSource" />
    <文档>
        <entity name="pdf" processor="FileListEntityProcessor" baseDir="/path/to/my/pdf" fileName=".*pdf" newerThan="'NOW-3DAYS'" recursive="true" rootEntity="false"数据源="pdf">
        </实体>
    </文档>
</dataConfig>

当我运行 DIH 时,它会
完成索引。添加/更新:0 个文档。删除了 0 个文档。
请求:0,获取:35924,跳过:0,处理:0

知道为什么它没有处理任何文件吗?

4

2 回答 2

1

您的配置中没有根实体;您只有一个实体,并且它具有 rootEntity="false",因此不会从中创建任何文档。

您还需要在实体内定义一些“字段”行,以将文件信息映射到架构中的字段;这个将 doc 文件夹中的所有文档索引到 solr FileListEntityProcessor 的问题与您需要的类似。

于 2015-01-28T09:09:54.007 回答
1

谢谢,我做到了,下面是需要的dataconfig

<?xml 版本="1.0" 编码="UTF-8"?>
<数据配置>
    <dataSource type="BinFileDataSource" />
    <文档>
        <entity name="pdf" processor="FileListEntityProcessor" baseDir="/path/to/my/pdf" fileName=".*pdf" newerThan="'NOW-3DAYS'" recursive="true" rootEntity="false"数据源="空">
            <field column="fileAbsolutePath" name="id" />
            <entity name="documentImport" processor="TikaEntityProcessor" url="${pdf.fileAbsolutePath}" format="text">
                <field column="text" name="text"/>
            </实体>
        </实体>
    </文档>
</dataConfig>
于 2015-01-29T13:38:44.873 回答