java - 空 Nutch 爬网列表

Question

我正在尝试在 Eclipse 中使用 Nutch 进行爬网。

我正在使用一个名为 urls 的文件，它包含

但是，当我运行项目时，生成器类告诉我：

“选择了 0 条记录进行提取，退出”

我该如何解决这个问题？

我遵循了这些文档：

任何帮助将不胜感激。

score 1 · Accepted Answer

我最近遇到了这个问题，发现大多数回复都与 (regex|crawl)-urlfiters.txt 有关。要检查的另一件事是您的“-topN”设置。这需要足够大，以便生成器通过所有过滤器。

我希望这有帮助。

score 0 · Accepted Answer

它很可能是您的 regex-urlfilter.xml。尝试使用它，看看它是否能解决问题

-^(文件|ftp|mailto):

-.(gif|GIF|jpg|JPG|png|PNG|ico|js|ICO|doc|mp3|MP3|DOC|css|rss|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm |tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

-.*(/[^/]+)/[^/]+\1/[^/]+\1/

+。

2 回答 2