有一个包含成千上万个 PDF 文件的 Web 可访问文件系统,我需要 Solr(使用 Lucidworks)对其进行索引。
我有一个 XML 文件,其中包含与每个文件对应的数据。XML 包含文件系统中相应 PDF 的 ID、一些简单的元数据和 URL。
目前,我能够以 Solr 读取它并索引我需要的所有元数据的方式格式化 XML,包括 PDF 的 URL。
我希望 Solr 在解析文件时实际上遵循 URL 并索引引用的 PDF 数据以及 XML 提供的元数据。这可能吗?
有一个包含成千上万个 PDF 文件的 Web 可访问文件系统,我需要 Solr(使用 Lucidworks)对其进行索引。
我有一个 XML 文件,其中包含与每个文件对应的数据。XML 包含文件系统中相应 PDF 的 ID、一些简单的元数据和 URL。
目前,我能够以 Solr 读取它并索引我需要的所有元数据的方式格式化 XML,包括 PDF 的 URL。
我希望 Solr 在解析文件时实际上遵循 URL 并索引引用的 PDF 数据以及 XML 提供的元数据。这可能吗?
您最好的选择(在纯 Solr 上)可能是带有嵌套实体的 DataImportHandler。
外部处理器将是XPathEntityProcessor,在其中,您可以将TikaEntityProcessor与适当的数据源放在一起。使用变量构造/传递 URL 到内部实体。
请记住将外部 (XPath) 实体标记为 rootEntity=false 以确保为内部实体创建 Solr 文档。