嗨,我是 nokogiri 的新手,正在尝试解析具有不同树结构的 HTML 文档。关于如何解析它的任何建议都会很棒。我想捕获此页面上的所有文本。
<div class = "main"> Title</div>
<div class = "subTopic">
<span = "highlight">Sub Topic</span>Stuff
</div>
<div class = "main"> Another Title</div>
<div class = "subTopic">
<span class = "highlight">Sub Topic Title I</span>Stuff<br>
<span class = "highlight">Sub Topic Title II</span>Stuff<br>
<span class = "highlight">Sub Topic Title III</span>Stuff<br>
</div>
我试过这个,但它只是把每个完整的数组都放出来,我什至不知道如何进入“Stuff”部分。
content = Nokogiri::HTML(open(@url))
content.css('div.main').each do |m|
puts m .text
content.css('div.subTopic').each do |s|
puts s.text
content.css('span.highlight').each do |h|
puts h.text
end
end
end
帮助将不胜感激。