0

我已经使用 nokogiri ruby​​ gem 为仅 tableData 类下的文本抓取了一个 html 文件。html代码设置如下:

<div class="table-wrap">
   <table class="table">
     <tbody>
        <tr>
           <td class="tableData"> Jane Doe</td>
           <td class="tableData"> 01/01/2017</td>
           <td class="tableData">01/09/2017 </td>
           <td class="tableData">Vacation</td>
        </tr>
        <tr>
           <td class="tableData">John Doe</td>
           <td class="tableData"> 01/01/2017</td>
           <td class="tableData">01/09/2017 </td>
           <td class="tableData">Vacation</td>
        </tr>
     </tbody>
   </table>
</div>

我用来爬网的代码是这样的:

vt = page.css("td[class='tableData']").text
puts vt

这给出了这个输出:

Jane Doe 01/01/201701/09/2017 VacationJohn Doe 01/01/201701/09/2017 Vacation

我想在一个数组中填充一个数组,其中只有与每个人有关的 4 个文本值。应该是这样的:

[[Jane Doe, 01/01/2017, 01/09/2017, Vacation], [John Doe, 01/01/2017, 01/09/2017, Vacation]]

我是编码新手,我不确定如何创建一个 for 循环来迭代 html 代码本身或 vt 变量以生成数组数组。我知道在 for 循环之后涉及一些 push 语句,但它是我无法组合起来的 for 循环的实际结构。如果您可以在回答中提供一些关于 for 循环在这种情况下如何工作的解释,我们将不胜感激。

4

2 回答 2

0

尝试将片段解析为 XML,通过 XPath 查找所有“tr”元素,并收集它们的“td//text()”子元素:

require 'nokogiri'
doc = Nokogiri::XML(get_html_snippet)
data = doc.xpath('//tr').map do |tr|
  tr.xpath('td').map { |td| td.text.strip }
end
data # => [["Jane Doe", "01/01/2017", "01/09/2017", "Vacation"], ["John Doe", "01/01/2017", "01/09/2017", "Vacation"]]
于 2017-02-03T20:00:04.607 回答
0

这是您需要的基本结构。map需要:

html=%q(<div class="table-wrap">
   <table class="table">
     <tbody>
        <tr>
           <td class="tableData"> Jane Doe</td>
           <td class="tableData"> 01/01/2017</td>
           <td class="tableData">01/09/2017 </td>
           <td class="tableData">Vacation</td>
        </tr>
        <tr>
           <td class="tableData">John Doe</td>
           <td class="tableData"> 01/01/2017</td>
           <td class="tableData">01/09/2017 </td>
           <td class="tableData">Vacation</td>
        </tr>
     </tbody>
   </table>
</div>)

require 'nokogiri'
doc = Nokogiri::XML(html)
array = doc.xpath('//tr').map do |tr|
  tr.xpath('td').map{ |td| td.text }
end

p array
# [[" Jane Doe", " 01/01/2017", "01/09/2017 ", "Vacation"], ["John Doe", " 01/01/2017", "01/09/2017 ", "Vacation"]]
于 2017-02-03T19:53:12.327 回答