solr - 从 Lucene Index 更新 Solr

Question

我目前正在做一个网络归档项目。基本上，我们尝试做的是归档一组网站（使用heritrix crawler）并通过 Web 界面提供对归档内容的访问。

我们还提供整个档案的全文搜索。目前，索引是使用nutchwax（apache Nutch 的定制版本，针对索引.warc文件量身定制，由heritrix生成）生成的。Nutchwax 转储出一个 Lucene 索引并在 Solr 中使用它，所要做的就是生成一个正确的模式。

这一切都完成了，它应该像它应该的那样运行，但是存档不是静态的，并且会.warc定期生成新文件。

我现在能做的是生成一个新索引，将它与现有索引合并，然后将其导入回 Solr。但是，要做到这一点，必须重新启动 Solr。如果索引可以“即时”更新，那就太好了，因为通常是这种情况（通过 http 请求更新索引时）

有谁知道，如何做到这一点？我的第一个.xml尝试是从 Lucene 索引文件中生成文件并将它们发布到 Solr。这值得一试还是有更优雅的解决方案？

score 1 · Accepted Answer

您可能可以利用多核的使用来完成您所需要的。有关更多详细信息，请参阅Solr Wiki - CoreAdmin。我认为您可以利用MergeIndexes功能或交换核心的能力在您的场景中获得更好的体验。

1 回答 1