2

如何使用该Mechanize库查找网站上的所有链接?

我想递归解析内部链接以获取网站的所有链接。

4

2 回答 2

5

你看过海葵宝石吗?它是专门为爬虫网站创建的。

您可以执行以下操作来获取并打印网站的所有链接:

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.focus_crawl { |page| puts page.links }
end

如果您想爬取整个边,排除某些类型的链接,或者排除类似的链接,它有相当好的文档可供选择。

于 2012-07-23T14:55:03.357 回答
0

不是红宝石解决方案,但我发现这个脚本简单有效。

于 2020-03-14T21:15:04.617 回答