2

我需要从格式如下的图像标签列表中获取文本:

<img src="/images/TextImage.ashx?text=Richmond" style="border-width:0px;" class="">

当我将 XPath 输入 Nokogiri 时,我得到:

[#<Nokogiri::XML::Element:0x80513954 name="img" attributes=[#<Nokogiri::XML::Attr:0x805138dc name="src" value="/images/TextImage.ashx?text=Richmond">, #<Nokogiri::XML::Attr:0x805138b4 name="style" value="border-width:0px;">]>] 

有什么办法可以告诉 Nokogiri 归还“Richmond”吗?我正在寻找一种在某个字符串之后返回文本的方法。如果没有办法只获得“里士满”,我该如何让它返回值?

4

1 回答 1

2

src您可以使用 xpath 表达式提取属性,例如

src = doc.at_xpath '//img/@src'

之后,您需要从属性中提取名称,可能使用正则表达式。

例如(这可能需要更多涉及,具体取决于srcHTML 页面中的属性可能采用的格式):

/\?text=(.*)/ =~ src
puts $1
于 2013-01-03T16:45:11.460 回答