Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想知道nutch 1.6的参数-depth&-topN是否仍然可用。我什至不知道这些参数和/bin/crawl bash 脚本中的参数 有什么区别?limit
-depth
-topN
limit
对于描述: -
depthdepth 表示应该爬取的根页面的链接深度。 例如,您可以在根页面扫描中有链接,而这些链接又会在其中有链接,依此类推。这可能导致链接的指数扫描。深度参数限制将从根页面扫描的链接的层次结构。
depth
topNN 确定将在每个级别检索到的最大页面数,直到深度。 例如,您的根页面上可能有 100 个链接。topN 将限制每个级别上要扫描的链接数量。
topN
所以基本上应该扫描的最大链接数是 Root Page * Depth * topN
此外,不要在文档中看到它们已被删除或弃用。所以我假设它们是可用的。