我们可以直接将WARC文件索引到 Solr 中,而无需先从 WARC 文件中提取和存储一些中间文件(例如html格式)到硬盘上吗?
换句话说,我们可以索引这些文件而不在硬盘上存储任何东西吗?
为此,我们开发了Web Archive Discovery工具包。它使用 Apache Tika 并将其与 WARC/ARC 阅读器和其他一些实用程序相结合,生成合适的记录并将它们发布到 Solr。
如果您想尝试一下,快速入门应该会有所帮助。
您应该在客户端上执行此操作,因为不清楚您希望这些文件使用哪种模式。然后,您可以以流式方式将内容扩展到内存中,如果需要,使用客户端 Tika 处理它,并将您想要的任何文档表示发送到 Solr。