0

我正在使用 Nutch 来抓取网站,但奇怪的是,对于我的一个网站来说,Nutch 抓取只返回两个 url,主页 url ( http://mysite.com/ ) 和另一个。

我网站上的网址基本上都是这种格式

http://mysite.com/index.php?main_page=index¶ms=12

http://mysite.com/index.php?main_page=index&category=tub¶m=17

即 url 仅在附加到 url 的参数方面有所不同(“ http://mysite.com/index.php?”部分对所有 url 都是通用的)

Nutch 是否无法抓取此类网站?

为了抓取此类网站,我应该执行哪些 Nutch 设置?

4

1 回答 1

1

我解决了这个问题。它与设置为的 url 过滤器有关

跳过包含某些字符的 URL 作为可能的查询等

-[?*!@=]

我评论了这个过滤器和 Nutch crawle dall urls :)

于 2009-11-10T06:02:10.283 回答