0

以下是我正在运行以索引页面的命令。

bin/nutch crawl bin/urls -solr http://localhost:8983/solr/ -dir crawl -depth 2 -topN 15

提取发生得很快,但 LinkDb:adding 段和 SolrIndexer 步骤需要大量时间,因为我反复运行上述命令,时间会增加。我的要求是我想尽可能快地索引页面,因为链接很快就会消失(在 2 分钟内)。我想将这个时间减少到一个非常小的数字,我应该怎么做才能使这成为可能?

如果我只想索引页面的 URL 和标题,这样做对索引速度有好处吗?

谢谢

4

1 回答 1

1

如果您有一个静态种子列表,那么您可以在每次运行 nutch 时删除“crawl”文件夹!这将为您节省大量时间!每次你运行 nutch 你的段增长,所以链接数据库需要更多的时间!您也可以创建一个线程并将这部分工作传递给它,但您必须自己处理分段购买!

于 2013-07-22T16:21:10.940 回答