2

我是 Nutch 和 Solr 的新手。目前我想抓取一个网站,其内容是

由 ASP 生成。由于内容不是静态的,我创建了一个 seed.txt

包含我想抓取的所有网址。例如:

http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...

regex-urlfilter.txt 有这个过滤器:

# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/

我使用此命令开始爬行:

/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10

seed.txt 包含 40,000 多个 URL。但是,我发现很多网址内容都不是

能够被 Solr 找到。

问题:

  1. 这种用于大型seed.txt 的方法是否可行?

  2. 如何检查 URL 是否被抓取?

  3. seed.txt 有大小限制吗?

谢谢 !

4

2 回答 2

4

查看db.max.outlinks.per.pagenutch 配置文件中的属性。
此属性的默认值为 100,因此只会从 seed.txt 中提取 100 个 url,其余的将被跳过。
将此值更改为更大的数字以扫描和索引所有 url。

于 2012-10-25T07:09:48.863 回答
0

topN 表示应该获取多少生成的链接。您可能已经生成了 100 个链接,但如果您将 topN 设置为 12,那么这些链接中只有 12 个会被获取、解析和索引。

于 2013-05-02T07:37:21.337 回答