0

我是 nutch 和 solr 的新手。Solr 比 Nutch 相对更新 :)

过去两周我一直在使用 nutch,我想知道我是否可以动态查询或搜索我的 nutch 爬行(在完成之前)。我之所以这么问,是因为我正在抓取的网站非常庞大,完成一次抓取大约需要 3-4 天。我想在 nutch 爬虫仍在爬取 URL 时分析一些快速结果。有人建议我 Solr 将使它成为可能。

为此,我按照http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/中的步骤进行操作。我看到 Solr 搜索中只显示了注入的 URL。我知道我做了一些非常愚蠢的事情,而爬行从未发生过,我觉得我在这里遗漏了一些信息。但我做了链接中提到的所有步骤。我认为在这个过程中的某个地方应该有一个爬行发生并且错过了。

只是想看看是否有人可以帮助我指出这一点以及我在此过程中出错的地方。原谅我的愚蠢,感谢您的耐心。

干杯,阿比

4

1 回答 1

0

这是不可能的。您可以做的是将抓取周期分块在较少数量的 URL 中,以便使用此命令更频繁地发布结果。
nutch generate crawl/crawldb crawl/segments -topN <the limit>
如果您使用的是 onestop 命令crawl 它应该是相同的。

我通常有一个 24 小时分块方案。

于 2011-02-11T07:12:07.673 回答