下面是我用来获取网页 HTML 内容的 Ruby 代码。我不允许更改此代码。
def getHtmlFromUrl(url)
uri = URI.parse(url)
http = Net::HTTP.new(uri.host, uri.port)
http.read_timeout = 2
html = http.get(uri.to_s)
# ...
# Handle any error that may have occurred (return nil)
# ...
return html.body
end
此代码似乎在读取某些没有尾部斜杠的 URL 时出现问题。例如,当我尝试读取时出现错误http://drive.google.com
,但没有http://drive.google.com/
。为什么会这样?我决定实施一个修复,如果没有指定路径,我会在域中添加一个斜杠。这是一个安全的解决方法吗?是否有可能在 的情况下发生错误http://somedomain.com/
并正常工作http://somedomain.com
?