以下是我正在运行以索引页面的命令。
bin/nutch crawl bin/urls -solr http://localhost:8983/solr/ -dir crawl -depth 2 -topN 15
提取发生得很快,但 LinkDb:adding 段和 SolrIndexer 步骤需要大量时间,因为我反复运行上述命令,时间会增加。我的要求是我想尽可能快地索引页面,因为链接很快就会消失(在 2 分钟内)。我想将这个时间减少到一个非常小的数字,我应该怎么做才能使这成为可能?
如果我只想索引页面的 URL 和标题,这样做对索引速度有好处吗?
谢谢