0

当我们运行爬虫时,我们会看到静态文件夹,例如;/cgi-bin、/images、/css 等在爬虫作业中弹出,我们希望将它们排除在爬网之外(不是它们最终在索引器中)并且我们不希望它们在索引器中,但是我们如何排除它们在爬虫中,所以它不会被这些静态文件夹占用?任何帮助表示赞赏。它是否有助于性能,不包括它们?现在我们看到它出于某种原因获取它们。Nutch 爬虫 1.2,Lucene 索引器。

4

1 回答 1

0

将拒绝规则添加到conf/regex-urlfilter.txt文件中。

-cgi-bin
-images
-css

请注意,这必须在接受所有规则之前添加,即。+.在正则表达式文件中。

于 2013-05-30T01:23:32.367 回答