0

我正在使用 Apache Nutch 抓取网站。在爬行时,我希望 nutch 忽略多个 url 模式,例如http://www.youtube.com/..so on...、http: //www.twitter.com/so on.. 等。

我知道如何配置 regex-urlfilter.txt 文件来抓取特定的 url。

但我不知道如何配置 nutch 以忽略某些 url 模式?

4

1 回答 1

0

我关注了以下网址,发现了许多有用的示例

https://scm.thm.de/pharus/nutch-config/blobs/66fba7d3dc015974b5c194e7ba49da60fe3c3199/Nutch-Config/conf/regex-urlfilter.txt

于 2013-07-10T13:40:13.257 回答