我正在尝试在 Eclipse 中使用 Nutch 进行爬网。
我正在使用一个名为 urls 的文件,它包含
但是,当我运行项目时,生成器类告诉我:
“选择了 0 条记录进行提取,退出”
我该如何解决这个问题?
我遵循了这些文档:
http://wiki.apache.org/nutch/RunNutchInEclipse1.0
http://wiki.apache.org/nutch/NutchTutorial
任何帮助将不胜感激。
我正在尝试在 Eclipse 中使用 Nutch 进行爬网。
我正在使用一个名为 urls 的文件,它包含
但是,当我运行项目时,生成器类告诉我:
“选择了 0 条记录进行提取,退出”
我该如何解决这个问题?
我遵循了这些文档:
http://wiki.apache.org/nutch/RunNutchInEclipse1.0
http://wiki.apache.org/nutch/NutchTutorial
任何帮助将不胜感激。
我最近遇到了这个问题,发现大多数回复都与 (regex|crawl)-urlfiters.txt 有关。要检查的另一件事是您的“-topN”设置。这需要足够大,以便生成器通过所有过滤器。
我希望这有帮助。
它很可能是您的 regex-urlfilter.xml。尝试使用它,看看它是否能解决问题
-^(文件|ftp|mailto):
-.(gif|GIF|jpg|JPG|png|PNG|ico|js|ICO|doc|mp3|MP3|DOC|css|rss|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm |tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$
-.*(/[^/]+)/[^/]+\1/[^/]+\1/
+。