0

可能重复:
在 Ruby 中解析 HTML 文档的方法?

如果在变量结果中我有:

<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/><link             rel="stylesheet" type="text/css" href="http://2.ai/styles/hello.css" media="screen"/><title>Welcome to Dotgeek.org * 1.ai</title></head><body>..... etc

如果可能的话,我如何在不使用任何 gem 的情况下解析我现在在 results 变量中拥有的那个 HTML 页面的标题?

4

2 回答 2

4
html = '<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/><link rel="stylesheet" type="text/css" href="http://2.ai/styles/hello.css" media="screen"/><title>Welcome to Dotgeek.org * 1.ai</title></head>'
html.match(/<title>(.*)<\/title>/)[1] #=> "Welcome to Dotgeek.org * 1.ai"
于 2012-09-07T13:41:14.560 回答
0

您可以像这样简单地按标题标签进行拆分:

title = result.split(/<title>/,2)[1].split(/<\/title>/,2)[0]

(编辑:split 的第二个参数与我在 python 中使用的不同,它不计算分割数,而是计算结果数组中的元素数,这意味着split(/pattern/, 1)实际上不分割任何东西......)

于 2012-09-07T13:44:42.613 回答