我目前正在做一个网络归档项目。基本上,我们尝试做的是归档一组网站(使用heritrix crawler)并通过 Web 界面提供对归档内容的访问。
我们还提供整个档案的全文搜索。目前,索引是使用nutchwax(apache Nutch 的定制版本,针对索引.warc
文件量身定制,由heritrix生成)生成的。Nutchwax 转储出一个 Lucene 索引并在 Solr 中使用它,所要做的就是生成一个正确的模式。
这一切都完成了,它应该像它应该的那样运行,但是存档不是静态的,并且会.warc
定期生成新文件。
我现在能做的是生成一个新索引,将它与现有索引合并,然后将其导入回 Solr。但是,要做到这一点,必须重新启动 Solr。如果索引可以“即时”更新,那就太好了,因为通常是这种情况(通过 http 请求更新索引时)
有谁知道,如何做到这一点?我的第一个.xml
尝试是从 Lucene 索引文件中生成文件并将它们发布到 Solr。这值得一试还是有更优雅的解决方案?