2

我们可以直接将WARC文件索引到 Solr 中,而无需先从 WARC 文件中提取和存储一些中间文件(例如html格式)到硬盘上吗?

换句话说,我们可以索引这些文件而不在硬盘上存储任何东西吗?

4

2 回答 2

3

为此,我们开发了Web Archive Discovery工具包。它使用 Apache Tika 并将其与 WARC/ARC 阅读器和其他一些实用程序相结合,生成合适的记录并将它们发布到 Solr。

如果您想尝试一下,快速入门应该会有所帮助

于 2018-10-22T21:15:52.220 回答
0

您应该在客户端上执行此操作,因为不清楚您希望这些文件使用哪种模式。然后,您可以以流式方式将内容扩展到内存中,如果需要,使用客户端 Tika 处理它,并将您想要的任何文档表示发送到 Solr。

于 2014-09-01T19:12:56.903 回答