xml - 在解析“Solr XML”文件以索引结果时，如何使 Solr 跟随链接？

Question

有一个包含成千上万个 PDF 文件的 Web 可访问文件系统，我需要 Solr（使用 Lucidworks）对其进行索引。

我有一个 XML 文件，其中包含与每个文件对应的数据。XML 包含文件系统中相应 PDF 的 ID、一些简单的元数据和 URL。

目前，我能够以 Solr 读取它并索引我需要的所有元数据的方式格式化 XML，包括 PDF 的 URL。

我希望 Solr 在解析文件时实际上遵循 URL 并索引引用的 PDF 数据以及 XML 提供的元数据。这可能吗？

score 1 · Accepted Answer

您最好的选择（在纯 Solr 上）可能是带有嵌套实体的 DataImportHandler。

外部处理器将是XPathEntityProcessor，在其中，您可以将TikaEntityProcessor与适当的数据源放在一起。使用变量构造/传递 URL 到内部实体。

请记住将外部 (XPath) 实体标记为 rootEntity=false 以确保为内部实体创建 Solr 文档。

1 回答 1