1

我目前正在做一个网络归档项目。基本上,我们尝试做的是归档一组网站(使用heritrix crawler)并通过 Web 界面提供对归档内容的访问。

我们还提供整个档案的全文搜索。目前,索引是使用nutchwax(apache Nutch 的定制版本,针对索引.warc文件量身定制,由heritrix生成)生成的。Nutchwax 转储出一个 Lucene 索引并在 Solr 中使用它,所要做的就是生成一个正确的模式。

这一切都完成了,它应该像它应该的那样运行,但是存档不是静态的,并且会.warc定期生成新文件。

我现在能做的是生成一个新索引,将它与现有索引合并,然后将其导入回 Solr。但是,要做到这一点,必须重新启动 Solr。如果索引可以“即时”更新,那就太好了,因为通常是这种情况(通过 http 请求更新索引时)

有谁知道,如何做到这一点?我的第一个.xml尝试是从 Lucene 索引文件中生成文件并将它们发布到 Solr。这值得一试还是有更优雅的解决方案?

4

1 回答 1

1

您可能可以利用多核的使用来完成您所需要的。有关更多详细信息,请参阅Solr Wiki - CoreAdmin。我认为您可以利用MergeIndexes功能或交换核心的能力在您的场景中获得更好的体验。

于 2012-03-27T13:48:29.877 回答