http://www.example.com/books?_pop=mheader
什么是正则表达式来匹配这个和任何在 URL 中具有“书籍”作为模式匹配之一的 URL?该站点有一个书籍类别和该类别下的各种其他子类别。如何向下遍历以搜索 book 的所有 URL?
require 'anemone'
Pattern = %r[(\/books)*]
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.on_pages_like(Pattern) do |page|
puts page.url
end
end