1

我正在用 Ruby 编写一个简单的网络爬虫,我需要获取href页面上的所有内容。执行此操作或任何其他网页源解析的最佳方法是什么,因为某些页面可能无效,但我仍然希望能够解析它们。

是否有任何好的 Ruby HTML 解析器允许有效性不可知的解析,或者是最好的方法只是用正则表达式手动完成?

是否可以在非 XHTML 页面上使用 XPath?

4

2 回答 2

4

看看Nokogiri。简短的例子:

require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end
于 2009-11-03T00:04:52.390 回答
1

看看机械化。我很确定它有抓取页面中所有链接的方法。

于 2009-11-03T00:14:41.770 回答