我正在使用 Apache Nutch 抓取网站。在爬行时,我希望 nutch 忽略多个 url 模式,例如http://www.youtube.com/..so on...、http: //www.twitter.com/so on.. 等。
我知道如何配置 regex-urlfilter.txt 文件来抓取特定的 url。
但我不知道如何配置 nutch 以忽略某些 url 模式?
我正在使用 Apache Nutch 抓取网站。在爬行时,我希望 nutch 忽略多个 url 模式,例如http://www.youtube.com/..so on...、http: //www.twitter.com/so on.. 等。
我知道如何配置 regex-urlfilter.txt 文件来抓取特定的 url。
但我不知道如何配置 nutch 以忽略某些 url 模式?