9

我正在使用 Nokogiri 来抓取网页。很少有 url 需要被猜测并在它们不存在时返回 404 not found 错误。有没有办法捕获这个异常?

http://yoursite/page/38475 #=> page number 38475 doesn't exist

我尝试了以下不起作用。

url = "http://yoursite/page/38475"
doc = Nokogiri::HTML(open(url)) do
  begin
    rescue Exception => e
      puts "Try again later"
  end
end
4

1 回答 1

23

它不起作用,因为您没有拯救open(url)在找到 404 状态时引发错误的部分代码(它是调用)。以下代码应该可以工作:

url = 'http://yoursite/page/38475'
begin
  file = open(url)
  doc = Nokogiri::HTML(file) do
    # handle doc
  end
rescue OpenURI::HTTPError => e
  if e.message == '404 Not Found'
    # handle 404 error
  else
    raise e
  end
end

顺便说一句,关于救援Exception为什么在 Ruby 中 `rescue Exception => e` 是一种不好的风格?

于 2013-08-16T10:16:06.660 回答