1

我想使用 ruby​​ 从文件夹中提取所有 url,但我对此一无所知,请有人帮助我。我在 google 上扩展了很多时间,但我找不到任何建议

谢谢

4

2 回答 2

1

Ruby 的 URI 类可以扫描文档并返回所有 URL。看extract方法。

Dir::glob将其包装在一个循环中,该循环使用or扫描您的目录,Dir::entriesreads使用File.read.

如果你愿意,你可以使用 Nokogiri 编写一个基于解析器的快速扫描器,但它可能会得到相同的结果。URI 的方法更简单。

于 2013-04-08T14:58:22.127 回答
0

您可以使用Nokogiri解析和搜索 HTML 文档。

> require 'nokogiri'
> require 'open-uri'
> doc = Nokogiri::HTML(open("http://www.example.com"))
> doc.css("a").map{|node| node.attr("href")}
 => ["http://www.iana.org/domains/special"]
于 2013-04-08T09:35:14.807 回答