我只想在 nutch 上抓取特定的域。为此,我将其设置db.ignore.external.links
为true,如本常见问题解答链接中所述
问题是 nutch 开始只抓取种子列表中的链接。例如,如果我将“nutch.apache.org”放入seed.txt,它只会找到相同的网址(nutch.apache.org)。
我通过运行 200 深度的爬网脚本得到结果。它完成一个周期并生成下面的输出。
我怎么解决这个问题 ?
我正在使用 apache nutch 1.11
Generator: starting at 2016-04-05 22:36:16
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: false
Generator: normalizing: true
Generator: topN: 50000
Generator: 0 records selected for fetching, exiting ...
Generate returned 1 (no new segments created)
Escaping loop: no more URLs to fetch now
此致