solr - Nutch - 爬虫不跟随分页内容中的下一页

Question

我正在使用 nutch 1.6 抓取包含 20 个产品/页面的分页网页，使用以下命令：

./nutch crawl urls -dir <dir> -depth 4 -topN 100 -threads 100

我收到了 20 款首批产品和以下页面的链接。但是爬虫没有关注我的下一页链接？我错过了一个参数吗？

score 0 · Accepted Answer

regex-urlfilter 阻止具有查询字符串参数的 url：

# 跳过包含某些字符的 URL 作为可能的查询等。

-[?*!@=]

修改该文件，以便抓取带有查询字符串参数的 url：

# 跳过包含某些字符的 URL 作为可能的查询等。

-[*!@]

score 0 · Accepted Answer

不幸的是，Nutch 1.6 不支持爬取基于 Ajax 的站点。看到这个和这个。没有立即添加相同的计划。

2 回答 2