我正在使用 nutch 1.5 和 solr 3.5。我想知道通过 nutch 更新 solr 索引的最佳方法。nutch 中的 seedlist.txt 包含大约一百万个 url。每天都会添加新的网址。此外,一些网址将被删除或更新。
nutch 命令“./nutch crawl urls -solr /solr/ -dir crawl -depth 1 -topN 10”将获取新添加的 url 以进行索引。但是,更新和删除的 url 根本不会被触及。
通过删除爬网文件夹并再次重新索引将修复“添加”和“更新”问题。但是,爬取一百万个 url 需要很长时间,而且 Solr 中仍然存在“删除” urls 索引。
我唯一想删除 Solr 索引是使用更新命令,如“update?commit=true&stream.body=id:xxxx”。
我在正确的方向吗?还是有更好的方法来做到这一点?