我正在使用Anemone来蜘蛛一个域,它工作正常。
启动爬网的代码如下所示:
require 'anemone'
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.on_every_page do |page|
puts page.url
end
end
这很好地打印出域的所有页面 url,如下所示:
http://www.example.com/
http://www.example.com/about
http://www.example.com/articles
http://www.example.com/articles/article_01
http://www.example.com/contact
我想做的是使用 url 的最后一部分作为键创建一个键值对数组,并使用 url '减去域'作为值。
例如
[
['','/'],
['about','/about'],
['articles','/articles'],
['article_01','/articles/article_01']
]
抱歉,如果这是基本的东西,但我是 Ruby 新手。