9

我正在浏览http://ruby.bastardsbook.com/提供的 Ruby 教程,我遇到了以下代码:

require "open-uri"

remote_base_url = "http://en.wikipedia.org/wiki"
r1 = "Steve_Wozniak"
r2 = "Steve_Jobs"
f1 = "my_copy_of-" + r1 + ".html"
f2 = "my_copy_of-" + r2 + ".html"

# read the first url
remote_full_url = remote_base_url + "/" + r1
rpage = open(remote_full_url).read

# write the first file to disk
file = open(f1, "w")
file.write(rpage)
file.close

# read the first url
remote_full_url = remote_base_url + "/" + r2
rpage = open(remote_full_url).read

# write the second file to disk
file = open(f2, "w")
file.write(rpage)
file.close

# open a new file:
compiled_file = open("apple-guys.html", "w")

# reopen the first and second files again
k1 = open(f1, "r")
k2 = open(f2, "r")

compiled_file.write(k1.read)
compiled_file.write(k2.read)

k1.close
k2.close
compiled_file.close

代码失败并出现以下跟踪:

/System/Library/Frameworks/Ruby.framework/Versions/1.8/usr/lib/ruby/1.8/open-uri.rb:277:in `open_http': 403 Forbidden (OpenURI::HTTPError)
    from /System/Library/Frameworks/Ruby.framework/Versions/1.8/usr/lib/ruby/1.8/open-uri.rb:616:in `buffer_open'
    from /System/Library/Frameworks/Ruby.framework/Versions/1.8/usr/lib/ruby/1.8/open-uri.rb:164:in `open_loop'
    from /System/Library/Frameworks/Ruby.framework/Versions/1.8/usr/lib/ruby/1.8/open-uri.rb:162:in `catch'
    from /System/Library/Frameworks/Ruby.framework/Versions/1.8/usr/lib/ruby/1.8/open-uri.rb:162:in `open_loop'
    from /System/Library/Frameworks/Ruby.framework/Versions/1.8/usr/lib/ruby/1.8/open-uri.rb:132:in `open_uri'
    from /System/Library/Frameworks/Ruby.framework/Versions/1.8/usr/lib/ruby/1.8/open-uri.rb:518:in `open'
    from /System/Library/Frameworks/Ruby.framework/Versions/1.8/usr/lib/ruby/1.8/open-uri.rb:30:in `open'
    from /Users/arkidmitra/tweetfetch/samecode.rb:11

我的问题不是代码失败,而是每当我将 r2 更改为 Steve_Jobs 以外的任何内容时,它都可以工作。这里发生了什么?

4

2 回答 2

10

当我请求一个存在的 wiki 页面时,您的代码对我来说运行良好(Ruby MRI 1.9.3)。

当我请求一个不存在的 wiki 页面时,我得到一个 mediawiki 404 错误代码。

  • Steve_Jobs => 成功
  • Steve_Austin => 成功
  • Steve_Rogers => 成功
  • Steve_Foo => 错误

维基百科做了大量的缓存,所以如果你看到对“史蒂夫乔布斯”的回应与其他确实存在的人不同,那么最好的猜测是因为维基百科正在缓存史蒂夫乔布斯的文章,因为他很有名,并可能添加额外的检查/验证以保护物品免受快速变化、损坏等。

适合您的解决方案:始终使用用户代理字符串打开 url。

rpage = open(remote_full_url, "User-Agent" => "Whatever you want here").read

Mediawiki 文档中的详细信息:“当您向 MediaWiki Web 服务 API 发出 HTTP 请求时,请务必指定一个正确标识您的客户端的 User-Agent 标头。不要使用您的客户端库提供的默认 User-Agent,但是组成一个包含客户端名称和版本号的自定义标头:类似于“MyCuteBot/0.1”。

在 Wikimedia wiki 上,如果您不提供 User-Agent 标头,或者您提供空的或通用的标头,您的请求将失败并出现 HTTP 403 错误。请参阅我们的用户代理政策。”

于 2012-06-10T00:56:03.630 回答
2

我认为这发生在像“史蒂夫乔布斯”、“阿尔戈尔”等被锁定的条目上。这在你所指的同一本书中有所规定:

对于某些页面——例如 Al Gore 的锁定条目——如果未指定 User-Agent,维基百科将不会响应 Web 请求。“用户代理”通常是指您的浏览器,您可以通过检查您为浏览器中的任何页面请求发送的标头来查看这一点。通过提供“User-Agent”键值对(我基本上使用“Ruby”,它似乎可以工作),我们可以将它作为散列传递(我在示例中使用常量 HEADERS_HASH)作为第二个参数方法调用。

稍后在http://ruby.bastardsbook.com/chapters/web-crawling/中指定

于 2012-06-18T17:49:31.397 回答