我正在尝试使用 Apache nutch 只爬下某个文件路径。例如,如果我的网址是:
www.foo.com/shoes/
我想继续抓取以下网址:www.foo.com/shoes/nike 和 www.foo.com/shoes/addidas 和 www.foo.com/shoes/addidas/soccer 但不抓取其他目录,如 www.foo .com/clothes 或 www.foo.com/watches。无论如何nutch可以做到这一点吗?
我正在尝试使用 Apache nutch 只爬下某个文件路径。例如,如果我的网址是:
www.foo.com/shoes/
我想继续抓取以下网址:www.foo.com/shoes/nike 和 www.foo.com/shoes/addidas 和 www.foo.com/shoes/addidas/soccer 但不抓取其他目录,如 www.foo .com/clothes 或 www.foo.com/watches。无论如何nutch可以做到这一点吗?