html - ruby 中的简单解析

Question

可能重复：
在 Ruby 中解析 HTML 文档的方法？

如果在变量结果中我有：

<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/><link             rel="stylesheet" type="text/css" href="http://2.ai/styles/hello.css" media="screen"/><title>Welcome to Dotgeek.org * 1.ai</title></head><body>..... etc

如果可能的话，我如何在不使用任何 gem 的情况下解析我现在在 results 变量中拥有的那个 HTML 页面的标题？

score 4 · Accepted Answer

html = '<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/><link rel="stylesheet" type="text/css" href="http://2.ai/styles/hello.css" media="screen"/><title>Welcome to Dotgeek.org * 1.ai</title></head>'
html.match(/<title>(.*)<\/title>/)[1] #=> "Welcome to Dotgeek.org * 1.ai"

score 0 · Accepted Answer

您可以像这样简单地按标题标签进行拆分：

title = result.split(/<title>/,2)[1].split(/<\/title>/,2)[0]

（编辑：split 的第二个参数与我在 python 中使用的不同，它不计算分割数，而是计算结果数组中的元素数，这意味着split(/pattern/, 1)实际上不分割任何东西......）

html - ruby 中的简单解析

2 回答 2

Related

Reference