solr - 我们可以将 WARC 文件直接索引到 Solr 中吗？

Question

我们可以直接将WARC文件索引到 Solr 中，而无需先从 WARC 文件中提取和存储一些中间文件（例如html格式）到硬盘上吗？

换句话说，我们可以索引这些文件而不在硬盘上存储任何东西吗？

score 3 · Accepted Answer

为此，我们开发了Web Archive Discovery工具包。它使用 Apache Tika 并将其与 WARC/ARC 阅读器和其他一些实用程序相结合，生成合适的记录并将它们发布到 Solr。

如果您想尝试一下，快速入门应该会有所帮助。

score 0 · Accepted Answer

您应该在客户端上执行此操作，因为不清楚您希望这些文件使用哪种模式。然后，您可以以流式方式将内容扩展到内存中，如果需要，使用客户端 Tika 处理它，并将您想要的任何文档表示发送到 Solr。

2 回答 2