0

使用 Nutch 2.1

在最初的抓取过程中,我排除了一些 url 以限制要抓取的页面数量。现在,当我从 regex-urlfilter.txt 中删除这些拒绝规则并运行这些命令时,我没有得到那些过滤后的 url:

bin/nutch updatedb
bin/nutch generate
bin/nutch fetch -all

我错过了什么?

4

1 回答 1

1

这篇关于 nutch 用户组的帖子可能会帮助您做到这一点。

于 2013-05-30T01:25:08.703 回答