1

是否可以通过 Nutch 仅抓取/获取纯 HTML 页面(即没有图片、视频、flash、excel、exe、pdf 或 word 文件)?

如何通过 Nutch检查Content-Type页面并仅获取页面?text/html

4

1 回答 1

1

编辑conf/regex-urlfilter.txt

为忽略设置文件后缀:

-\.(jpg|gif|zip|ico)$ 
于 2012-10-08T07:35:49.163 回答