html - 在Ruby中获取页面上所有href内容的最简单方法？

Question

我正在用 Ruby 编写一个简单的网络爬虫，我需要获取href页面上的所有内容。执行此操作或任何其他网页源解析的最佳方法是什么，因为某些页面可能无效，但我仍然希望能够解析它们。

是否有任何好的 Ruby HTML 解析器允许有效性不可知的解析，或者是最好的方法只是用正则表达式手动完成？

是否可以在非 XHTML 页面上使用 XPath？

score 4 · Accepted Answer

看看Nokogiri。简短的例子：

require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end

score 1 · Accepted Answer

1

看看机械化。我很确定它有抓取页面中所有链接的方法。

于 2009-11-03T00:14:41.770 回答

html - 在Ruby中获取页面上所有href内容的最简单方法？

2 回答 2

Related

Reference