我正在尝试在指定网页上创建字母(a、b、c 等)的直方图。我计划使用哈希制作直方图本身。但是,我在实际获取 HTML 时遇到了一些问题。
我当前的代码:
#!/usr/local/bin/ruby
require 'net/http'
require 'open-uri'
# This will be the hash used to store the
# histogram.
histogram = Hash.new(0)
def open(url)
Net::HTTP.get(URI.parse(url))
end
page_content = open('_insert_webpage_here')
page_content.each do |i|
puts i
end
这在获取 HTML 方面做得很好。然而,它得到了一切。对于 www.stackoverflow.com,它给了我:
<body><h1>Object Moved</h1>This document may be found <a HREF="http://stackoverflow.com/">here</a></body>
假装它是正确的页面,我不想要 html 标签。我只是想得到Object Moved
and This document may be found here
。
有没有相当简单的方法可以做到这一点?