0

我正在尝试在 Eclipse 中使用 Nutch 进行爬网。

我正在使用一个名为 urls 的文件,它包含

http://www.google.com/

但是,当我运行项目时,生成器类告诉我:

“选择了 0 条记录进行提取,退出”

我该如何解决这个问题?

我遵循了这些文档:

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

任何帮助将不胜感激。

4

2 回答 2

1

我最近遇到了这个问题,发现大多数回复都与 (regex|crawl)-urlfiters.txt 有关。要检查的另一件事是您的“-topN”设置。这需要足够大,以便生成器通过所有过滤器。

我希望这有帮助。

于 2012-07-25T23:38:55.473 回答
0

它很可能是您的 regex-urlfilter.xml。尝试使用它,看看它是否能解决问题

-^(文件|ftp|mailto):

-.(gif|GIF|jpg|JPG|png|PNG|ico|js|ICO|doc|mp3|MP3|DOC|css|rss|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm |tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

-.*(/[^/]+)/[^/]+\1/[^/]+\1/

+。

于 2011-02-04T06:49:56.593 回答