0

我想知道nutch 1.6的参数-depth&-topN是否仍然可用。我什至不知道这些参数和/bin/crawl bash 脚本中的参数
有什么区别?limit

4

1 回答 1

0

对于描述: -

  • depthdepth 表示应该爬取的根页面的链接深度。
    例如,您可以在根页面扫描中有链接,而这些链接又会在其中有链接,依此类推。这可能导致链接的指数扫描。深度参数限制将从根页面扫描的链接的层次结构。

  • topNN 确定将在每个级别检索到的最大页面数,直到深度。
    例如,您的根页面上可能有 100 个链接。topN 将限制每个级别上要扫描的链接数量。

所以基本上应该扫描的最大链接数是 Root Page * Depth * topN

此外,不要在文档中看到它们已被删除或弃用。所以我假设它们是可用的。

于 2013-05-23T13:16:12.040 回答