要提取 URL,我使用以下内容:
html = open('http://lab/links.html')
urls = URI.extract(html)
这很好用。
现在我需要提取一个不带前缀 http 或 https 的 URL 列表,它们位于<br >
标签之间。由于没有 http 或 https 标签,URI.extract 不起作用。
domain1.com/index.html<br >domain2.com/home/~john/index.html<br >domain3.com/a/b/c/d/index.php
每个不带前缀的 URL 都位于<br >
标签之间。
我一直在查看此Nokogiri Xpath 以在 <TD> 和 <SPAN> 中的 <BR> 之后检索文本,但无法使其正常工作。
输出
domain1.com/index.html
domain2.com/home/~john/index.html
domain3.com/a/b/c/d/index.php
中间溶液
doc = Nokogiri::HTML(open("http://lab/noprefix_domains.html"))
doc.search('br').each do |n|
n.replace("\n")
end
puts doc
我仍然需要去掉其余的 HTML 标记 ( !DOCTYPE, html, body, p
)...
解决方案
str = ""
doc.traverse { |n| str << n.to_s if (n.name == "text" or n.name == "br") }
puts str.split /\s*<\s*br\s*>\s*/
谢谢。