1

我有简单的 html 表:

<table>
  <tr>
    <td>
      <a href="http://someurl_1.com">item name1</a>
    </td>
    <td>
      Value 1
    </td>
  </tr>
  <tr>
    <td>
      <a href="http://someurl_2.com">item name2</a>
    </td>
    <td>
      Value 2
    </td>
  </tr>
</table>

现在我需要将该表中的数据作为 List>(或 string[][])

为了得到它,我使用:

        List<List<string>>
            table = doc.DocumentNode.SelectSingleNode("//table")
                    .Descendants("tr")
                    .Skip(1)
                    .Where(tr => tr.Elements("td").Count() > 1)
                    .Select(tr => tr.Elements("td").Select(td => td.InnerText.Trim()).ToList())
                    .ToList();

它,成功地让我只有字符串数据,所以结果我有

table[0][0] -> item name1
table[0][1] -> value 1
table[1][0] -> item name2
table[1][1] -> value 2

但我在那个数组中没有 url。

我怎样才能得到它的表值,所以结果我需要有:

table[0][0] -> http://someurl_1.com
table[0][1] -> item name1
table[0][2] -> value 1
table[1][0]-> http://someurl_2.com
table[1][1] -> item name2
table[1][2] -> value 2

任何帮助表示赞赏!谢谢

4

1 回答 1

0

我建议对每个单元格使用 xpath 并将它们的数据映射到您的数组。

例如第二项的xpath是/html/body/table/tbody/tr[2]/td[1]/a

  var doc = new HtmlAgilityPack.HtmlDocument();
  doc.LoadHtml(htmlText);
  var nodes = doc.DocumentNode.SelectNodes("/html/body/table/tbody/tr[2]/td[1]/a");

会给你<a href="http://someurl_2.com">item name2</a>一个节点,你可以进一步获取 URL 或文本。

于 2013-05-28T20:45:05.917 回答