0

在我用 nutch 运行这个命令后:

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

我得到一个 url 列表,只是说 50 urls ,但任何人都知道按深度分隔所有 url。

所以我会得到结果:

来自深度 1 的 URL = 5 个 URL

  • 网址

  • 网址

  • 网址

……

来自深度 2 的 URL = 15 个 URL

  • 网址

  • 网址

  • 网址

……

类似的东西,有没有人已经解决了这个问题?

nutch 中是否有解决此问题的功能?

任何帮助将不胜感激。

4

1 回答 1

1

nutch 中没有内置函数来执行此操作。但简单的 hack 将使用 dept 1 运行 nutch 命令,复制 web 表,然后再次运行 deth 1。所以你将有 2 个版本的 nutch web-table 对应于每一轮

于 2012-10-18T08:00:25.770 回答