0

我正在使用 nutch 1.6 抓取包含 20 个产品/页面的分页网页,使用以下命令:

./nutch crawl urls -dir <dir> -depth 4 -topN 100 -threads 100

我收到了 20 款首批产品和以下页面的链接。但是爬虫没有关注我的下一页链接?我错过了一个参数吗?

4

2 回答 2

0

regex-urlfilter 阻止具有查询字符串参数的 url:

# 跳过包含某些字符的 URL 作为可能的查询等。

-[?*!@=]

修改该文件,以便抓取带有查询字符串参数的 url:

# 跳过包含某些字符的 URL 作为可能的查询等。

-[*!@]

于 2013-06-16T17:00:23.307 回答
0

不幸的是,Nutch 1.6 不支持爬取基于 Ajax 的站点。看到这个这个。没有立即添加相同的计划。

于 2013-05-26T10:52:19.287 回答