我是 Nutch 和 Solr 的新手。目前我想抓取一个网站,其内容是
由 ASP 生成。由于内容不是静态的,我创建了一个 seed.txt
包含我想抓取的所有网址。例如:
http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...
regex-urlfilter.txt 有这个过滤器:
# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/
我使用此命令开始爬行:
/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10
seed.txt 包含 40,000 多个 URL。但是,我发现很多网址内容都不是
能够被 Solr 找到。
问题:
这种用于大型seed.txt 的方法是否可行?
如何检查 URL 是否被抓取?
seed.txt 有大小限制吗?
谢谢 !