在我用 nutch 运行这个命令后:
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
我得到一个 url 列表,只是说 50 urls ,但任何人都知道按深度分隔所有 url。
所以我会得到结果:
来自深度 1 的 URL = 5 个 URL
网址
网址
网址
……
来自深度 2 的 URL = 15 个 URL
网址
网址
网址
……
类似的东西,有没有人已经解决了这个问题?
nutch 中是否有解决此问题的功能?
任何帮助将不胜感激。