0

所以我有这个问题,我要使用 Open-URI 在 Excel 的列表中列出每个国家/地区。一切正常,但我似乎不知道如何让我的 RegExp-“字符串”包括单名国家(如“瑞典”),但也包括南非等国家,用空格等分隔。我希望我'已经让自己得到了公平的理解,下面我将包含相关的代码。

我要匹配的文本如下(例如):

<a href="wf.html">Wallis and Futuna</a>
<a href="ym.html">Yemen</a>

我目前坚持使用这个正则表达式:

/a.+="\w{2}.html">(\w*)<.+{1}/

如您所见,匹配“也门”没有问题。虽然我仍然希望代码能够匹配“Wallis and Futuna AND Yemen。也许如果有办法将所有内容包含在给定的“>blabla bla<”中?有什么想法吗?我将非常感激!

4

2 回答 2

5

在处理 HTML 实体提取时使用 Regex 通常是不好的

require 'nokogiri' 

parser = Nokogiri::HTML.parse(your_html)
country_links = parser.css("a")
country_links.each{|link| puts link['href']; puts link.text;}
于 2013-03-25T18:26:35.780 回答
1

对于您的测试样品,

/<a[^>]+href="\w{2}.html">([\w\s]+)<\/a>/
于 2013-03-25T18:23:03.467 回答