ruby - Ruby Regex 匹配字符串的多个部分

Question

使用 Ruby：ruby 1.9.3dev（2011-09-23 修订版 33323）[i686-linux]

我有以下字符串：

str = 'Message relates to activity <a href="/activities/35">TU4 Sep 5 Activity 1</a> <img src="/images/layout/placeholder.png" width="222" height="149"/><br/><br/>First question from Manager on TU4 Sep 5 Activity 1.'

我想匹配以下内容：

35（一个数字，它是 href 属性值的一部分）
TU4 Sep 5 活动（标签的文本）经理在 TU4 Sep 5 Activity 1 上提出的第一个问题。（最后一个标签
之后的剩余文本）<br/><br/>

为了达到同样的效果，我编写了以下正则表达式

result = str.match(/<a href="\/activities\/(?<activity_id>\d+)">(?<activity_title>.*)<\/a>.*<br\/><br\/>(?<message>.*)/)

这会产生以下结果：

#<MatchData "<a href=\"/activities/35\">TU4 Sep 5 Activity 1</a> <img src=\"/images/layout/placeholder.png\" width=\"222\" height=\"149\"/><br/><br/>First question from Manager on TU4 Sep 5 Activity 1." 
         activity_id:"35" 
         activity_title:"TU4 Sep 5 Activity 1" 
         message:"First question from Manager on TU4 Sep 5 Activity 1.">

但我想这不是有效的。是否有可能在匹配的结果中仅返回所需的值（如上面我想要匹配的内容所述），并且从匹配的结果中排除以下值：

"<a href=\"/activities/35\">TU4 Sep 5 Activity 1</a> <img src=\"/images/layout/placeholder.png\" width=\"222\" height=\"149\"/><br/><br/>First question from Manager on TU4 Sep 5 Activity 1."

谢谢，

吉涅什

score 1 · Accepted Answer

执行此操作的适当方法是不使用正则表达式。相反，请使用 Nokogiri 库轻松解析您的 html：

require 'nokogiri'

doc = Nokogiri::HTML.parse(str)
activity_id = doc.css('[href^="/activities"]').attr('href').value[/\d+$/]
activity_title = doc.css('[href^="/activities"]')[0].inner_text
message = doc.search("//text()").last

这将完全按照您的正则表达式尝试进行，随机失败的可能性要低得多。

ruby - Ruby Regex 匹配字符串的多个部分

1 回答 1

Related

Reference