solr - Nutch 没有抓取来自 seed.txt 的所有 URL

Question

我是 Nutch 和 Solr 的新手。目前我想抓取一个网站，其内容是

由 ASP 生成。由于内容不是静态的，我创建了一个 seed.txt

包含我想抓取的所有网址。例如：

http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...

regex-urlfilter.txt 有这个过滤器：

# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/

我使用此命令开始爬行：

/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10

seed.txt 包含 40,000 多个 URL。但是，我发现很多网址内容都不是

能够被 Solr 找到。

问题：

谢谢！

score 4 · Accepted Answer

查看db.max.outlinks.per.pagenutch 配置文件中的属性。
此属性的默认值为 100，因此只会从 seed.txt 中提取 100 个 url，其余的将被跳过。
将此值更改为更大的数字以扫描和索引所有 url。

score 0 · Accepted Answer

topN 表示应该获取多少生成的链接。您可能已经生成了 100 个链接，但如果您将 topN 设置为 12，那么这些链接中只有 12 个会被获取、解析和索引。

2 回答 2