nutch - 如何在 Nutch 中只抓取 HTML？

Question

是否可以通过 Nutch 仅抓取/获取纯 HTML 页面（即没有图片、视频、flash、excel、exe、pdf 或 word 文件）？

如何通过 Nutch检查Content-Type页面并仅获取页面？text/html

score 1 · Accepted Answer

1

编辑conf/regex-urlfilter.txt：

为忽略设置文件后缀：

-\.(jpg|gif|zip|ico)$

于 2012-10-08T07:35:49.163 回答

1 回答 1