3

我正在使用海葵。我如何也抓取子域?例如,如果我有网站,www.abc.com我的爬虫也应该爬取support.abc.comblah.abc.com. 我正在使用 Ruby 1.8.7 和 Rails 3。

4

2 回答 2

4

这是 Github 上的一个提交,可以解决您的问题。

https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928

根据链接更改您的海葵 gem 文件。

于 2012-02-16T22:40:56.447 回答
-2

根据Anemone 文档,您可以将多个站点传递给crawl命令:

Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")

当然,您的下一个问题可能是 ABC 禁止您抓取他们的网站,但这是一个不同的问题。

于 2012-02-15T18:17:37.803 回答