2

我在 ruby​​ 上运行一个带有海葵的网络爬虫,当我的服务器访问需要登录的页面时,它给我的服务器带来了一些问题。

这些页面都有一个短语,比如 URL 中的“帐户”,我希望程序完全忽略并且不转到任何包含此字符串的目的地的链接。

我怎样才能做到这一点?

4

1 回答 1

4

海葵有一个skip_links_like方法

skip_links_like(*patterns)
为不应遵循的 URL 添加一个或多个 Regex 模式

所以添加类似的东西

skip_links_like /\/account\//

应该照顾它:

Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
    anemone.skip_links_like /\/account\//
    #...
end
于 2011-09-06T16:38:10.523 回答