2

我正在尝试使用 Apache nutch 只爬下某个文件路径。例如,如果我的网址是:

www.foo.com/shoes/

我想继续抓取以下网址:www.foo.com/shoes/nike 和 www.foo.com/shoes/addidas 和 www.foo.com/shoes/addidas/soccer 但不抓取其他目录,如 www.foo .com/clothes 或 www.foo.com/watches。无论如何nutch可以做到这一点吗?

4

1 回答 1

0

您唯一需要做的就是编写一个与您的模式匹配的正则表达式,例如

+.www.foo.com/shoes/

并通过使用跳过其他所有内容

-.*

在你的结尾crawl-urlfilter.txt

于 2013-09-16T07:56:22.143 回答