我正在使用 Nutch 来抓取网站,但奇怪的是,对于我的一个网站来说,Nutch 抓取只返回两个 url,主页 url ( http://mysite.com/ ) 和另一个。
我网站上的网址基本上都是这种格式
http://mysite.com/index.php?main_page=index¶ms=12
http://mysite.com/index.php?main_page=index&category=tub¶m=17
即 url 仅在附加到 url 的参数方面有所不同(“ http://mysite.com/index.php?”部分对所有 url 都是通用的)
Nutch 是否无法抓取此类网站?
为了抓取此类网站,我应该执行哪些 Nutch 设置?