3

我将 HTML 内容存储在数据库中,我希望将所有相对资产引用转换为使用绝对路径。例如,我所有的图像标签看起来都是这样的:

<img src=\"/system/images/146/original/03.png?1362691463\">

我正在尝试预先"http://example.com"设置"/system/images/"路径。我有以下代码,我希望能处理它,但遗憾的是它似乎并没有导致任何变化:

text = "<img src=\"/system/images/146/original/03.png?1362691463\">"
text.gsub(%r{<img src=\\('|")\/system\/images\/}, "<img src=\"http://virtualrobotgames.com/system/images/")
4

3 回答 3

9

不要使用普通的字符串操作来操作 URL 字符串,而是使用为这项工作制作的工具。Ruby 包含URI类,还有更全面的Addressable gem。

如果我有一些带有我想要重写的链接的 HTML,我会这样做:

首先,解析文档:

require 'nokogiri'
require 'uri'

SOURCE_SITE = URI.parse("http://virtualrobotgames.com")

html = '
<html>
<head></head>
<body>
  <img src="/system/images/146/original/03.png?1362691463">
  <script src="/scripts/foo.js"></script>
  <a href="/foo/bar.html">foo</a>
</body>
</html>
'
doc = Nokogiri::HTML(html)

然后,您就可以浏览文档并修改诸如<a>,<img>之类的标签<script>以及您想要的任何其他标签:

# find things using 'src' and 'href' parameters
tags = {
  'img'    => 'src',
  'script' => 'src',
  'a'      => 'href'
}
doc.search(tags.keys.join(',')).each do |node|

  url_param = tags[node.name]

  src = node[url_param]
  unless (src.empty?)
    uri = URI.parse(src)
    unless uri.host
      uri.scheme = SOURCE_SITE.scheme
      uri.host = SOURCE_SITE.host
      node[url_param] = uri.to_s
    end
  end
end

puts doc.to_html

运行后,输出:

# >> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
# >> <html>
# >> <head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"></head>
# >> <body>
# >>   <img src="http://virtualrobotgames.com/system/images/146/original/03.png?1362691463">
# >>   <script src="http://virtualrobotgames.com/scripts/foo.js"></script>
# >>   <a href="http://virtualrobotgames.com/foo/bar.html">foo</a>
# >> </body>
# >> </html>

这并不意味着是一个完整的、完全有效的示例。这适用于绝对链接,但您必须处理相对链接、具有同级/对等主机名的链接、缺少参数。

您还需要errors在解析后检查“doc”的方法,以确保它是有效的 HTML。解析器可以重写/修剪无效 HTML 中的节点以试图理解它。

于 2013-04-09T19:22:37.010 回答
1

你不能只使用'base' HTML 标签来做到这一点吗?假设您直接从 URL 读取 HTML 内容,您可以执行以下操作:

response = RestClient.get(<original_url>)
base_url = '<your_base_url>'
html_content = response.body
if html_content.index('<head>')
    html_content = html_content.gsub!('<head>', "<head><base href='#{base_url}'>")
end
于 2013-06-11T20:13:52.467 回答
0

显然这是我传递的搜索参数的问题,不需要转义序列。

%r{<img src=\\('|")\/system\/images\/}

变得简单:

%r{<img src="/system/images/}
于 2013-04-08T20:41:29.110 回答