我想让 nutch 抓取 abc.com,但我只想索引 car.abc.com。car.abc.com 链接可以在 abc.com 的任何级别。所以,基本上,我希望 nutch 保持正常抓取 abc.com,但只索引以 car.abc.com 开头的页面。例如 car.abc.com/toyota...car.abc.com/honda...
我将 regex-urlfilter.txt 设置为仅包含 car.abc.com 并运行命令“generate crawl/crawldb crawl/segments”,但它只是说“Generator: 0 records selected for fetching, exiting ...”。我猜 car.abc.com 链接只存在于几个层次。
这个怎么做?谢谢。