Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
使用 Nutch 2.1
在最初的抓取过程中,我排除了一些 url 以限制要抓取的页面数量。现在,当我从 regex-urlfilter.txt 中删除这些拒绝规则并运行这些命令时,我没有得到那些过滤后的 url:
bin/nutch updatedb bin/nutch generate bin/nutch fetch -all
我错过了什么?
这篇关于 nutch 用户组的帖子可能会帮助您做到这一点。