nutch - LinkDb：添加段和 SolrIndexer 需要大量时间

Question

以下是我正在运行以索引页面的命令。

bin/nutch crawl bin/urls -solr http://localhost:8983/solr/ -dir crawl -depth 2 -topN 15

提取发生得很快，但 LinkDb:adding 段和 SolrIndexer 步骤需要大量时间，因为我反复运行上述命令，时间会增加。我的要求是我想尽可能快地索引页面，因为链接很快就会消失（在 2 分钟内）。我想将这个时间减少到一个非常小的数字，我应该怎么做才能使这成为可能？

如果我只想索引页面的 URL 和标题，这样做对索引速度有好处吗？

谢谢

score 1 · Accepted Answer

如果您有一个静态种子列表，那么您可以在每次运行 nutch 时删除“crawl”文件夹！这将为您节省大量时间！每次你运行 nutch 你的段增长，所以链接数据库需要更多的时间！您也可以创建一个线程并将这部分工作传递给它，但您必须自己处理分段购买！

1 回答 1