我正在使用海葵。我如何也抓取子域?例如,如果我有网站,www.abc.com
我的爬虫也应该爬取support.abc.com
或blah.abc.com
. 我正在使用 Ruby 1.8.7 和 Rails 3。
问问题
737 次
2 回答
4
这是 Github 上的一个提交,可以解决您的问题。
https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928
根据链接更改您的海葵 gem 文件。
于 2012-02-16T22:40:56.447 回答
-2
根据Anemone 文档,您可以将多个站点传递给crawl
命令:
Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")
当然,您的下一个问题可能是 ABC 禁止您抓取他们的网站,但这是一个不同的问题。
于 2012-02-15T18:17:37.803 回答