我想使用 ruby 从文件夹中提取所有 url,但我对此一无所知,请有人帮助我。我在 google 上扩展了很多时间,但我找不到任何建议
谢谢
Ruby 的 URI 类可以扫描文档并返回所有 URL。看extract
方法。
Dir::glob
将其包装在一个循环中,该循环使用or扫描您的目录,Dir::entries
并reads
使用File.read
.
如果你愿意,你可以使用 Nokogiri 编写一个基于解析器的快速扫描器,但它可能会得到相同的结果。URI 的方法更简单。
您可以使用Nokogiri解析和搜索 HTML 文档。
> require 'nokogiri'
> require 'open-uri'
> doc = Nokogiri::HTML(open("http://www.example.com"))
> doc.css("a").map{|node| node.attr("href")}
=> ["http://www.iana.org/domains/special"]