2

我们可以用海葵(例如:)抓取一个漏洞网站https://stackoverflow.com/,但是如果我只想关注某个文件夹(例如:httpsquestions ://stackoverflow.com/ )怎么办。我怎样才能做到这一点 ?也许使用“focus_crawl”方法?

4

1 回答 1

2

检查keep_if方法可能有帮助

http://danneu.com/posts/8-scraping-a-blog-with-anemone-ruby-web-crawler-and-mongodb#toc_1

尝试按照您要爬行的方式传递模式

还有一个要点https://gist.github.com/1149906

注意:我还没有测试过,但你肯定可以尝试。

于 2012-08-08T17:28:04.067 回答