solr - Nutch 2.X - 要获取的首选网址

Question

我有这种情况：我的种子中有超过 160 个 URL。一周前我开始爬行。现在我在我的存储中抓取了很多页面，但我可以在我的 Solr 索引中看到种子中的一些 URL 根本没有被抓取（这些 URL 没有来自 robots.txt 的一些限制）或者只有很少的数量。是否可以告诉 Nutch 偏爱某些 URL？

score 0 · Accepted Answer

你检查过TopN价值吗？还是 Nutch 还在爬行？因为索引和向 solr 发送数据是在过程结束时完成的！

solr - Nutch 2.X - 要获取的首选网址

1 回答 1

Related

Reference