ruby - Ruby - nokogiri - 仅解析特定的 html 表

Question

我有一个 HTML 文档可以从那里解析和读取一堆东西。问题是 html 中有多个表，我只对一个表感兴趣。另外，我只想阅读具有一些有用内容的行。这是示例 html 页面，有两个没有 ID 的表，我只想要第二个表和对人类有用的行。

<HTML>
<BODY>

<TABLE>
  <TR>
    <TD> I don't want this table </TD></TR>
  <TR>
    <TD></TD>
    <TD> No No No <br></TD>
  </TR>
....
</TABLE>


<TABLE>
  <TR>
    <TD>04/13/2012 22:51  I want this table </TD></TR>
  <TR>
    <TD></TD>
    <TD> First - something there <br></TD>
  </TR>
  <TR>
    <TD>04/13/2012 23:23  Update from xyz</TD></TR>
  <TR>
    <TD></TD>
    <TD>Second - something here <br></TD>
  </TR>
</TABLE>


</BODY>
</HTML>

我正在尝试这段代码，这显然是行不通的。o/p 不是我想要的文本。它包括两个表，我只想要第二个表。帮助！

require 'curb'
require 'nokogiri'
c = Curl::Easy.perform("http://server/cgi-bin/page.cgi?id=123456")
html_doc = Nokogiri::HTML(c.body_str.to_s)
puts html_doc.xpath("//table/tr/td")

score 0 · Accepted Answer

您是否尝试过 xpath//table[2]/tr/td来获取第二个表。如果您可以更改 HTML 的来源，最好的解决方案是为您的表格提供 id 属性。

ruby - Ruby - nokogiri - 仅解析特定的 html 表

1 回答 1

Related

Reference