ruby - 如何在 Ruby 上获取 HTML 页面及其所有对象

Question

我需要获取包含所有对象（样式表、javascript、图像）的 HTML 页面并将数据存储在数据库中。可以通过简单地获取 src 属性中列出的文件来实现这一点，但也许有人可以为此建议任何帮助 gem。

此外，有没有办法将所有这些文件打包到一个（如网络档案），大多数浏览器都可以打开？

谢谢

score 4 · Accepted Answer

您可以使用mechanize来完成这项工作：

require "rubygems"
require "mechanize"

url = "http://stackoverflow.com/"
agent = WWW::Mechanize.new
page = agent.get(url)


page.search('img[@src]').each do |image|
  src = image["src"]
  image_file = agent.get(src) if src
  # Store image_file data it in database ...  
end

page.search('link[rel="stylesheet"]').each do |css|
  src = css["src"]
  css_file = agent.get(src) if src
  # Store css_file data it in database ...  
end

page.search('script[type="text/javascript"]').each do |script|
  src = script["src"]
  script_file = agent.get(src) if src
  # Store script_file data it in database ...    
end

您仍然必须处理异常并修复具有相关 src 属性的资源。但这应该可以完成这项工作。但是，此解决方案不会获取样式表中引用的图像。

score 0 · Accepted Answer

0

看看机械化

于 2009-07-16T14:08:44.470 回答

ruby - 如何在 Ruby 上获取 HTML 页面及其所有对象

2 回答 2

Related

Reference