html - 如何使用 Nokogiri 使用 CSS 选择器逐行解析？

Question

我有一个要解析的 HTML 表格。我想向下移动<TR>并提取href。HTML 如下所示：

table id="classified_table" class="vs-classified-table widget-off top" cellspacing="0" cellpadding="0" border="0">
    <tbody>
    <tr>
    <td id="classified_cell">
    <table class="vs-classified-table widget-off" cellspacing="0" cellpadding="0" border="0">
    <tbody>
    <tr id="vs_classified_73634384" class="classified row1 kiwii-clad-row kiwii-clad-featured">
    <tr id="vs_classified_74530668" class="classified row2 kiwii-clad-row kiwii-clad-featured">
    <tr id="vs_classified_62296263" class="classified row3 kiwii-clad-row kiwii-clad-featured">
    <tr id="vs_classified_62468547" class="classified row4 kiwii-clad-row kiwii-clad-featured">
    <tr id="vs_classified_47122034" class="classified row5 kiwii-clad-row kiwii-clad-featured">
    <tr id="vs_classified_78210646" class="classified row6 kiwii-clad-row">
    <tr id="vs_classified_78207083" class="classified row7 kiwii-clad-row">
    <tr id="vs_classified_69104369" class="classified row8 kiwii-clad-row">
    <tr id="vs_classified_78113204" class="classified row9 kiwii-clad-row">
    <tr id="vs_classified_52761813" class="classified row10 kiwii-clad-row">
    <tr id="vs_classified_78121746" class="classified row11 kiwii-clad-row">
    <tr id="vs_classified_76515548" class="classified row12 kiwii-clad-row">
    <tr id="vs_advert_middle" class="vs-advertisement advertisment-middle-2 vs-adsense-middle-BR-" style="border:none">
    <tr id="vs_classified_34048811" class="classified row13 kiwii-clad-row">

我的 Ruby 代码如下所示：

require 'rubygems'
require 'nokogiri'
require 'open-uri'

page = Nokogiri::HTML(open('http://servico-informatica.vivanuncios.com/computador+rio-de-janeiro-capital/'))
rows = page.css('tr#vs_classified_73634384.classified td.summary div a#vs-detail-link-1.kiwii-clear-none')
puts rows.text
#this works

rows [1..10].each do |row|
    puts "this isn't working :("

end

第一个 print 成功打印了 first 的文本<TR>，但循环puts内部each不起作用。

我要抓取的页面是：http ://servico-informatica.vivanuncios.com/computador+rio-de-janeiro-capital/

score 3 · Accepted Answer

您只收到一个结果，因为您的 css 查询正在使用，#这意味着它正在寻找页面上的唯一元素（Spec）。

因此，您需要修改查询以查找基于 css 类的 href。

tr.classified td.summary a.classified-link

更新

上面的 css 路径将抓取所有链接，然后您只需要遍历数组并使用 href 和 text 执行所需的操作。

require 'rubygems'
require 'nokogiri'
require 'open-uri'

page = Nokogiri::HTML(open('http://servico-informatica.vivanuncios.com/computador+rio-de-janeiro-capital/'))
links = page.css("tr.classified td.summary a.classified-link")

links.map do |link|
  puts link['href']
  puts link.content
end

score 1 · Accepted Answer

我不知道您希望这样做：

rows [1..10].each do |row|
  puts "this isn't working :("
end

但我很确定它不会做你期望它做的事情。这实际上被解释为：

rows[1..10].each { ... }

并且由于rows(which is a Nokogiri::XML::NodeSet) 只有一个条目，因此尝试提取从 at 开始的子集会1给您一个空的NodeSet; 这意味着您实际上只是在说：

some_empty_node_set.each { ... }

这没有任何用处。但是，如果您查看中的第一个条目rows，您会发现href您正在寻找：

rows[0]['href']
# "http://servico-informatica.vivanuncios.com/..."

您还可以查看rows.attr('href')或rows.first['href']根据口味以及适合您的需求。

html - 如何使用 Nokogiri 使用 CSS 选择器逐行解析？

2 回答 2

Related

Reference