我在 ruby 上运行一个带有海葵的网络爬虫,当我的服务器访问需要登录的页面时,它给我的服务器带来了一些问题。
这些页面都有一个短语,比如 URL 中的“帐户”,我希望程序完全忽略并且不转到任何包含此字符串的目的地的链接。
我怎样才能做到这一点?
我在 ruby 上运行一个带有海葵的网络爬虫,当我的服务器访问需要登录的页面时,它给我的服务器带来了一些问题。
这些页面都有一个短语,比如 URL 中的“帐户”,我希望程序完全忽略并且不转到任何包含此字符串的目的地的链接。
我怎样才能做到这一点?
海葵有一个skip_links_like
方法:
skip_links_like(*patterns)
为不应遵循的 URL 添加一个或多个 Regex 模式
所以添加类似的东西
skip_links_like /\/account\//
应该照顾它:
Anemone.crawl("somesite.co.uk", :depth_limit => 1) do |anemone|
anemone.skip_links_like /\/account\//
#...
end