apache - 是否可以让 Nutch 只爬下某个文件路径？

Question

我正在尝试使用 Apache nutch 只爬下某个文件路径。例如，如果我的网址是：

www.foo.com/shoes/

我想继续抓取以下网址：www.foo.com/shoes/nike 和 www.foo.com/shoes/addidas 和 www.foo.com/shoes/addidas/soccer 但不抓取其他目录，如 www.foo .com/clothes 或 www.foo.com/watches。无论如何nutch可以做到这一点吗？

score 0 · Accepted Answer

您唯一需要做的就是编写一个与您的模式匹配的正则表达式，例如

+.www.foo.com/shoes/

并通过使用跳过其他所有内容

-.*

在你的结尾crawl-urlfilter.txt！

apache - 是否可以让 Nutch 只爬下某个文件路径？

1 回答 1

Related

Reference